Steuerrecht
Live-Wert aus dem aktuellen Lauf.
Welches KI-Modell ist diese Woche das richtige für meinen Mandatsfall, meine Diagnose, meinen Vertrag? Der AI-Roundtable Leaderboard liefert die belastbare Antwort: zweiwöchig publiziertes Ranking führender Sprachmodelle auf realen Fällen aus Steuerrecht, Medizin, Jura und Wirtschaftsrecht. Triple-Judge-Bewertung, Halluzinations-Erkennung, Bootstrap-Konfidenzintervalle, vollständig auditierbare JSONL-Historie.
Jetzt abonnieren + Whitepaper-PDF erhalten (kostenfrei, alle 14 Tage)max_output_tokens-Limit gegenüber dem internen Thinking-Budget der Reasoning-Modelle (GPT-5 reasoning_tokens, Gemini 2.5 Pro thinking_tokens).
Diagnose-Diff im Audit-Trail mit finish_reason=MAX_TOKENS
dokumentiert.
Schnappschuss der aktuellen Rangordnung als Querschnitt über alle vier Domänen (Steuerrecht, Medizin, Jura, Wirtschaftsrecht). Höhe der Stufen proportional zum top100-Score. — siehe Methodik. Die domänenspezifische Aufschlüsselung folgt weiter unten — sie zeigt, dass die Reihenfolge sich pro Themenfeld i.d.R. unterscheidet. Daher sollten Sie nie einem einzigen Modell vertrauen!
Quality-Score pro Modell über die publizierten Läufe.
Modelle zusammengefasst. (Gleitender Durchschnitt n=3)
Jeder Lauf bewertet alle aktivierten Modelle auf einer fixen, versionierten Frage-Bank pro Domäne. Items werden getrennt nach öffentlich (BFH/BGH/Leitlinien) und synthetisch (zur Eliminierung von Trainings-Effekt und Tool-Such-Vorteilen) geführt.
Eine Domänen-Prozentzahl ist ein Mittel über viele Fragen. Pro Frage wechselt das beste Modell — auch innerhalb derselben Domäne. Das Orakel („Bester pro Frage": man wählte für jede Frage das jeweils stärkste Modell) ist eine Obergrenze, die man vorab nicht treffen kann — und selbst sie bleibt unter 100: ein harter Rest, den kein Modell löst.
Live-Wert aus dem aktuellen Lauf.
Live-Wert aus dem aktuellen Lauf.
Live-Wert aus dem aktuellen Lauf.
Live-Wert aus dem aktuellen Lauf.
Der AI-Roundtable löst das Modell-Auswahlproblem: er erreicht zwar nicht das (theoretische) Orakel „Bester pro Frage", schlägt aber jedes vorab fix wählbare Einzelmodell zuverlässig — denn kein Modell ist über alle Fragen und Domänen konsistent das beste. Damit eliminiert AI-Roundtable das Modell-Auswahlrisiko des Anwenders und liefert ein über jedem fix wählbaren Solo-Modell liegendes Ergebnis. Methodik → Modell-Auswahl
Basis: voller publizierter 14-Tage-Lauf über alle Domänen — nicht die kleine Gegenprobe-Stichprobe.
Wer im betrieblich-professionellen Umfeld auf KI setzt, kann es sich nicht leisten, mit dem falschen Modell zu arbeiten — eine erfundene Fundstelle, eine falsche Diagnose, ein verlegener Mandanten-Brief sind zu teuer. Der AI-Roundtable Leaderboard liefert alle 14 Tage die belastbare Antwort: Welches Modell ist für die nächsten zwei Wochen das richtige.
Pro Lauf eine eindeutige Modell-Empfehlung pro Domäne — auf Basis von Score, Halluzinations-Rate und Konfidenz-Intervall. Keine Listen-Lektüre, sondern eine konkrete Empfehlung.
Modell-Versionen ändern sich rapide. Der Leaderboard hält Sie automatisch aktuell — die Empfehlung von vor drei Monaten ist heute oft die falsche.
Roh-Daten öffentlich, Methodik git-versioniert, Audit-Trail vollständig nachvollziehbar. Belegbar gegenüber Aufsicht, Prüfer und Mandant — Pflicht-Lektüre dort, wo Verlässlichkeit verlangt wird.
Snapshot der wichtigsten Bewegungen alle 14 Tage automatisch im Postfach. Subject-Zeile zeigt das Top-Mover-Highlight. Monatlich kündbar, kein Account, kein Login.
Drei unabhängige Judge-Modelle aus drei verschiedenen Anbieter-Familien (Opus 4.7 · GPT-5 · Mistral Large 2) bewerten jede Antwort source-label-blinded. Inter-Rater-Agreement ist Teil des öffentlichen Audit-Werts.
Jede frei erfundene Behauptung — falsches Aktenzeichen, frei erfundener Paragraph, nicht-existierende Studie — wird wortwörtlich extrahiert und in den Audit-Trail aufgenommen.
Pro Modell × Domäne 1000 Resamples auf den Cell-Scores. Veröffentlicht wird Score-Mittel + 95-%-Perzentil — kein Punktwert ohne Unsicherheits-Angabe.
Question-Bank git-versioniert, Modell-Konfig versioniert, deterministische Sampling-Parameter. Ein zweiter Lauf derselben Version produziert byte-identische Antworten.
Einmal publizierte Lauf-Ergebnisse werden nie modifiziert oder gelöscht. Methodik-Wechsel triggern eine neue Question-Bank-Version; alte Punkte bleiben unter ihrer Original-Version sichtbar.
Pro Lauf liegt das vollständige JSONL — jede Modell-Antwort, jede Judge-Begründung — frei downloadbar im Audit-Trail. Kein Auth, keine Rate-Limits.
Wer die App auf seinem Mac einsetzt, lässt mehrere Spitzen-Modelle gleichzeitig debattieren und sich gegenseitig prüfen. Der Leaderboard beantwortet die Frage davor: welche Modelle gehören in den Roundtable, und welches sollte die nächsten zwei Wochen die Schlüsselrolle übernehmen. Beide Produkte greifen ineinander.
Drei bis vier Spitzen-Modelle prüfen sich gegenseitig, ein Moderator wägt ab. Lokal auf Ihrem Mac, schweigepflicht-bewusst gestaltet nach § 203 StGB, im Mandatsmodus pseudonymisiert.
Die wichtigsten Einordnungs-Fragen zum Leaderboard — eingeklappt, klick zum Aufklappen. Wer tiefer einsteigen will, findet das vollständige Verfahren in der Methodik.
Weil sie etwas anderes messen. Die großen öffentlichen Leaderboards bewerten meist generische Aufgaben — Multiple-Choice-Wissen (MMLU), Chat-Präferenz nach Bauchgefühl (LMArena), Coding-Aufgaben, fast durchweg auf Englisch. Der AI-Roundtable Leaderboard misst etwas sehr Schmales und Konkretes: deutschsprachige Berufsträger-Fälle aus Steuerrecht, Medizin, Jura und Wirtschaftsrecht, gegen von Hand hinterlegte Soll-Fakten, source-label-blinded von drei Judge-Familien geprüft.
Ein Modell, das eine generische englische Bestenliste anführt, kann auf einem § 8c-KStG-Mandatsfall oder einer Differentialdiagnose anders abschneiden — genau das zeigen unsere Domänen-Aufschlüsselungen. Drei Fragen entscheiden, ob zwei Rankings überhaupt vergleichbar sind: Was wird gemessen, auf welcher Aufgabenart und Sprache, und zu welchem Datum (Modell-Versionen ändern sich rapide — daher unser 14-Tage-Rhythmus). Unsere Antworten auf diese drei Fragen sind offengelegt und im Audit-Trail nachprüfbar; das ist der eigentliche Unterschied.
Hinzu kommt bei manuellen wissenschaftlichen Studien oft die Problematik, dass zwischen Durchführung und Veröffentlichung der (zumeist ernüchternden) Ergebnisse z.T. sehr lange Zeiträume von >1,5 Jahren liegen können. Das bedeutet die Studienveröffentlichungen die Sie aktuell vielleicht in den News gelesen haben beziehen sich damit größtenteils auf KI-Modelle die vor über 12 Monaten Stand der Technik waren. Das sind in aktuellen IT-Epochen aber sprichtwörtlich Lichtjahre. Aber vor allen Dingen weiß der Nutzer damit in dieser Sekunde immer noch nicht, was JETZT also aktuell das beste Modell wäre. Dieses ist daher auch der Grund warum wir in unseren Leaderboard-Ranking alle 2 Wochen, alle populären Top-Modell messen. Nur so schaffen wir echte, zeitnahe Transparenz und vor allen Dingen Verlaufsdarstellungen mit praktischem Nutzen.
Für anspruchsvolle Fälle: oft ja — und genau so positionieren wir den Leaderboard. Die Fachkraft bleibt vorerst der Maßstab und die letzte Instanz. Unsere eigenen Zahlen sagen dasselbe: selbst das Orakel (für jede Frage vorab das jeweils beste Modell wählen — praktisch nicht erreichbar) bleibt über alle Domänen unter 100 Punkten. Es gibt einen harten Rest, den derzeit kein Modell löst (warum eine Zahl pro Modell täuscht).
KI ist hier ein Werkzeug zur Unterstützung und Zweitmeinung, kein Ersatz für die fachliche Beurteilung. Der Leaderboard hilft, für die nächsten zwei Wochen das verlässlichste verfügbare Werkzeug zu wählen — die inhaltliche Verantwortung, die Gegen-Lektüre und die Letztentscheidung bleiben beim Berufsträger. Die Ranking-Werte sind methodisch abgeleitete Orientierung, ausdrücklich keine rechtliche, steuerliche oder ärztliche Beratung.
Allerdings ist eine weitere Ehrlichkeit des täglichen Lebens notwendigerweise einzugestehen: Wie hoch die Wahrscheinlichkeit ist mit (s)einer persönlichen Frage an einen menschlichen Fachexperten zu gelangen, der tatsächlich "die" gewünschte korrekte und fundierte Antwort geben kann, ist ebenfalls unsicher. Denn auch nicht jeder Mensch ist tatsächlich uneingeschränkter Experte seines Fachs. Beispiel: Unser Roundtable KI Modell hätte das schweizerische Jura-Staatsexamen in allen Durchlöufen mit einer Abschlussnote von 1.x im ersten Durchlauf bestanden. Wieviele Menschen schaffen das ebenfalls? Erfahrungsgemäß wenige. Und noch weniger sind definitiv besser als eine KI - noch. Wie hoch die Wahrscheinlichkeit ist mit einem Anliegen bei einem tatsächlichen Experten zu landen, möge der Leser besser selbst einschätzen.
Praktisch in fünf Schritten:
Es gibt mehrere wirksame Hebel, die sich kombinieren lassen:
Beides ist möglich — vollständig ausschließen lässt sich eine Halluzination nicht, aber erkennen und deutlich verringern.
Erkennen:
Reduzieren:
Mehr zur Halluzinations-Erfassung im Bewertungsverfahren: Methodik → Bewertung.
Bevor der Leaderboard im April 2026 in den Betrieb ging, wurde die Bewertungs-Pipeline in einer mehrmonatigen Validierungs-Studie über vier Berufsfelder hinweg geprüft. Erst nach Bestehen dieser Cross-Domain-Validierung wurden die heutigen Lauf-Parameter eingefroren.
Steuerrecht, Medizin (BMJ + Multimorbiditäts-Fälle), Jura (BGH-Senate quotengewichtet) und Wirtschaftsrecht — jede Domäne mit einer eigenen Frage-Bank-Version und reproduzierbarer Skoring-Pipeline.
Phase-E-Sprints mit jeweils N=25–100 realen Fall-Items pro Lauf, getestet auf Inter-Judge-Stabilität (ρ ≥ 0,84), Cross-Domain-Generalisierung und Memorization-Confound-Robustheit (Pre-/Post-Trainings-Cutoff vergleich).
Anthropic + OpenAI + Mistral als Triple-Judge; source-label-blinded Bewertung pro Antwort. Mehr Detail unter Methodik → Triple-Judge.
Die in der Validierungs-Phase ermittelten methodischen Befunde (z. B. Mistral-Tax-Schwäche als Domain-Stratifikations-Effekt, Expert-Roles-Lift in BFH, Inter-Judge-Stabilität nach Tier-1-Prompts) fließen in die Methodik des laufenden Leaderboards ein und sind im vollständigen Methodik-Dokument nachvollziehbar dokumentiert.
Die vollständige Cross-Domain-Validierung mit allen Roh-Statistiken, Win-/Loss-/Tie-Tabellen pro Sub-Stratum, Limitations und Critique-Response liegt öffentlich als 10-File-Gist vor:
→ Public Validation Gist · 10 Files · ~80 Sessions Cross-Domain
Enthält u. a.: Methodik, Legal Study (BGH/BFH), Medical Study (BMJ + MedExpQA), Raw-Metrics-JSON, Production-Roadmap, Limitations & Threats-to-Validity, Critique Response, Layman Abstract. Direkt zur Limitations-Datei →
raw.jsonl die
Modell-Antwort-Texte sowie die wörtlich extrahierten
Halluzinationen entfernt — daraus wären die Original-Fall-Konstellationen
rekonstruierbar. Die aggregierten Validations-Resultate
(oben im Gist) bleiben dabei vollständig öffentlich — kein
einzelner Item-Text in den 10 Files, nur Methodik, Sub-Stratum-
Statistik und Cross-Domain-Vergleich. Vollständige Roh-Antworten
gibt es ausschließlich auf direkte NDA-Anfrage für externes
Auditing.
Jeder Lauf wird als kompletter, unveränderbarer Datensatz publiziert.
——
Alle zwei Wochen bekommen Sie die fundierte Auswertung aus Ihrem Fachbereich — auf welches Modell Sie oder Ihre Kolleg:innen vorrangig setzen sollten, solange Sie noch keine AI-Roundtable-App einsetzen. Nach der Anmeldung erhalten Sie einmalig unser Whitepaper als PDF. Double-Opt-In, jederzeit mit einem Klick abbestellbar, keine Weitergabe an Dritte.