AI-Roundtable Leaderboard
AI-Roundtable Leaderboard Stand: Nächster Test:

Ranking der aktuell verlässlichsten KI-Systeme für Steuer, Medizin und Recht.

Reproduzierbare KI-Modell-Bewertung für Berufsträger — alle 14 Tage neu. Kein einzelnes Modell ist überall vorn: der pro-Frage-Beste wechselt.

Welches KI-Modell ist diese Woche das richtige für meinen Mandatsfall, meine Diagnose, meinen Vertrag? Der AI-Roundtable Leaderboard liefert die belastbare Antwort: zweiwöchig publiziertes Ranking führender Sprachmodelle auf realen Fällen aus Steuerrecht, Medizin, Jura und Wirtschaftsrecht. Triple-Judge-Bewertung, Halluzinations-Erkennung, Bootstrap-Konfidenz­intervalle, vollständig auditierbare JSONL-Historie.

Jetzt abonnieren + Whitepaper-PDF erhalten (kostenfrei, alle 14 Tage)
Empfehlung · wird geladen …
von 100 Punkten
Vergleich zu Vorlauf folgt
Domain-Aufteilung wird geladen …
Bewertung erfolgt durch 3 unabhängige KI-Gutachter.
ACHTUNG! Die Wertungszahl pro Modell kann täuschen! Auch das beste Modell wechselt von Frage zu Frage — auch innerhalb derselben Domäne seine Leistung. Selbst wer vor einer Frage immer das jeweils beste Modell "hellseherisch" wählen könnte (das „Orakel"), bliebe die Ergebnis noch unter 100 — ein harter Rest, den kein Modell aktuell lösen konnte. Warum das wichtig ist...? →
Stand & Caveats zum aktuellen Lauf wird geladen …
Stand: Aktueller Lauf wird vom Worker geladen. Statistisch dünn — robuste Trend-Aussagen ab Lauf #4 (12 Wochen). Methodik vollständig, Roh-JSONL transparent im Audit-Trail einsehbar.
Vollständige Coverage: Alle vier Modelle (Opus 4.7, GPT-5, Gemini 2.5 Pro, Mistral Large 2) liefern auf allen 33 Items eine ausgewertete Antwort. Frühere Coverage-Lücken in den Pilot-Läufen #1–#6 waren nicht durch Safety-Policies verursacht, sondern durch ein zu niedriges max_output_tokens-Limit gegenüber dem internen Thinking-Budget der Reasoning-Modelle (GPT-5 reasoning_tokens, Gemini 2.5 Pro thinking_tokens). Diagnose-Diff im Audit-Trail mit finish_reason=MAX_TOKENS dokumentiert.

Siegertreppchen — Querschnitt über alle Domänen

Schnappschuss der aktuellen Rangordnung als Querschnitt über alle vier Domänen (Steuerrecht, Medizin, Jura, Wirtschaftsrecht). Höhe der Stufen proportional zum top100-Score. — siehe Methodik. Die domänenspezifische Aufschlüsselung folgt weiter unten — sie zeigt, dass die Reihenfolge sich pro Themenfeld i.d.R. unterscheidet. Daher sollten Sie nie einem einzigen Modell vertrauen!

AI-ROUNDTABLE LEADERBOARD ranking.ai-roundtable.de Stand: 2026-05-10 Live-Daten werden geladen … Querschnitt über alle Domänen · Per-Domain-Details siehe unten

Score-Verlauf über alle Läufe

Quality-Score pro Modell über die publizierten Läufe.

AI-ROUNDTABLE LEADERBOARD ranking.ai-roundtable.de top100

Anbieterverlauf

Modelle zusammengefasst. (Gleitender Durchschnitt n=3)

AI-ROUNDTABLE LEADERBOARD ranking.ai-roundtable.de Ø top100

Vier Domänen, je 100 reale Fall-Items

Jeder Lauf bewertet alle aktivierten Modelle auf einer fixen, versionierten Frage-Bank pro Domäne. Items werden getrennt nach öffentlich (BFH/BGH/Leitlinien) und synthetisch (zur Eliminierung von Trainings-Effekt und Tool-Such-Vorteilen) geführt.

Steuerrecht

vGA, Organschaft, § 8c KStG, Auslandsbezug — komplexe Mandatsfälle
Opus 4.769
GPT-551
Gemini 2.531
Mistral L211
Grok 4.30
Opus 4.80

Medizin

Multimorbidität, Pharma-Interaktionen, atypische Symptompräsentation
GPT-584
Opus 4.782
Mistral L267
Gemini 2.553
Grok 4.30
Opus 4.80

Jura

Anspruchskonkurrenz, AGB-Inhaltskontrolle, Form-Mangel-Folgen
Opus 4.779
GPT-571
Gemini 2.555
Mistral L247
Grok 4.30
Opus 4.80

Wirtschaftsrecht

Vinkulierung, Stimmverbote, faktische Konzernhaftung
GPT-574
Opus 4.769
Gemini 2.546
Mistral L245
Grok 4.30
Opus 4.80
✓ Live-Daten · Auto-Refresh aus dem aktuell publizierten Lauf · erster Balken pro Domäne grün hervorgehoben, letzter rot · Aktualisierung mit jedem neuen 14-Tage-Lauf.

Kein Modell ist überall vorn — warum eine Zahl pro Modell täuscht

Eine Domänen-Prozentzahl ist ein Mittel über viele Fragen. Pro Frage wechselt das beste Modell — auch innerhalb derselben Domäne. Das Orakel („Bester pro Frage": man wählte für jede Frage das jeweils stärkste Modell) ist eine Obergrenze, die man vorab nicht treffen kann — und selbst sie bleibt unter 100: ein harter Rest, den kein Modell löst.

Steuerrecht

Live-Wert aus dem aktuellen Lauf.

Medizin

Live-Wert aus dem aktuellen Lauf.

Jura

Live-Wert aus dem aktuellen Lauf.

Wirtschaftsrecht

Live-Wert aus dem aktuellen Lauf.

Der AI-Roundtable löst das Modell-Auswahlproblem: er erreicht zwar nicht das (theoretische) Orakel „Bester pro Frage", schlägt aber jedes vorab fix wählbare Einzelmodell zuverlässig — denn kein Modell ist über alle Fragen und Domänen konsistent das beste. Damit eliminiert AI-Roundtable das Modell-Auswahlrisiko des Anwenders und liefert ein über jedem fix wählbaren Solo-Modell liegendes Ergebnis. Methodik → Modell-Auswahl

Basis: voller publizierter 14-Tage-Lauf über alle Domänen — nicht die kleine Gegenprobe-Stichprobe.

Höchste Sicherheit, wenn's drauf ankommt.

Wer im betrieblich-professionellen Umfeld auf KI setzt, kann es sich nicht leisten, mit dem falschen Modell zu arbeiten — eine erfundene Fundstelle, eine falsche Diagnose, ein verlegener Mandanten-Brief sind zu teuer. Der AI-Roundtable Leaderboard liefert alle 14 Tage die belastbare Antwort: Welches Modell ist für die nächsten zwei Wochen das richtige.

Klare Handlungs­empfehlung

Pro Lauf eine eindeutige Modell-Empfehlung pro Domäne — auf Basis von Score, Halluzinations-Rate und Konfidenz-Intervall. Keine Listen-Lektüre, sondern eine konkrete Empfehlung.

Zwei-wöchiger Rhythmus

Modell-Versionen ändern sich rapide. Der Leaderboard hält Sie automatisch aktuell — die Empfehlung von vor drei Monaten ist heute oft die falsche.

Compliance-bewusst aufbereitet

Roh-Daten öffentlich, Methodik git-versioniert, Audit-Trail vollständig nachvollziehbar. Belegbar gegenüber Aufsicht, Prüfer und Mandant — Pflicht-Lektüre dort, wo Verlässlichkeit verlangt wird.

Direkt ins Postfach

Snapshot der wichtigsten Bewegungen alle 14 Tage automatisch im Postfach. Subject-Zeile zeigt das Top-Mover-Highlight. Monatlich kündbar, kein Account, kein Login.

Was den Leaderboard auszeichnet

Triple-Judge-Bewertung

Drei unabhängige Judge-Modelle aus drei verschiedenen Anbieter-Familien (Opus 4.7 · GPT-5 · Mistral Large 2) bewerten jede Antwort source-label-blinded. Inter-Rater-Agreement ist Teil des öffentlichen Audit-Werts.

Halluzinations-Erkennung

Jede frei erfundene Behauptung — falsches Aktenzeichen, frei erfundener Paragraph, nicht-existierende Studie — wird wortwörtlich extrahiert und in den Audit-Trail aufgenommen.

Bootstrap-Konfidenzintervalle

Pro Modell × Domäne 1000 Resamples auf den Cell-Scores. Veröffentlicht wird Score-Mittel + 95-%-Perzentil — kein Punktwert ohne Unsicherheits-Angabe.

Reproduzierbar bei T=0

Question-Bank git-versioniert, Modell-Konfig versioniert, deterministische Sampling-Parameter. Ein zweiter Lauf derselben Version produziert byte-identische Antworten.

Append-Only-Historie

Einmal publizierte Lauf-Ergebnisse werden nie modifiziert oder gelöscht. Methodik-Wechsel triggern eine neue Question-Bank-Version; alte Punkte bleiben unter ihrer Original-Version sichtbar.

Roh-Daten öffentlich

Pro Lauf liegt das vollständige JSONL — jede Modell-Antwort, jede Judge-Begründung — frei downloadbar im Audit-Trail. Kein Auth, keine Rate-Limits.

Perfekt in Kombination mit der AI-Roundtable App

Wer die App auf seinem Mac einsetzt, lässt mehrere Spitzen-Modelle gleichzeitig debattieren und sich gegenseitig prüfen. Der Leaderboard beantwortet die Frage davor: welche Modelle gehören in den Roundtable, und welches sollte die nächsten zwei Wochen die Schlüsselrolle übernehmen. Beide Produkte greifen ineinander.

Häufige Fragen

Die wichtigsten Einordnungs-Fragen zum Leaderboard — eingeklappt, klick zum Aufklappen. Wer tiefer einsteigen will, findet das vollständige Verfahren in der Methodik.

Es gibt auch andere Ranking-Studien, die ganz andere Ergebnisse liefern. Wie passt das zusammen?

Weil sie etwas anderes messen. Die großen öffentlichen Leaderboards bewerten meist generische Aufgaben — Multiple-Choice-Wissen (MMLU), Chat-Präferenz nach Bauchgefühl (LMArena), Coding-Aufgaben, fast durchweg auf Englisch. Der AI-Roundtable Leaderboard misst etwas sehr Schmales und Konkretes: deutschsprachige Berufsträger-Fälle aus Steuerrecht, Medizin, Jura und Wirtschaftsrecht, gegen von Hand hinterlegte Soll-Fakten, source-label-blinded von drei Judge-Familien geprüft.

Ein Modell, das eine generische englische Bestenliste anführt, kann auf einem § 8c-KStG-Mandatsfall oder einer Differentialdiagnose anders abschneiden — genau das zeigen unsere Domänen-Aufschlüsselungen. Drei Fragen entscheiden, ob zwei Rankings überhaupt vergleichbar sind: Was wird gemessen, auf welcher Aufgaben­art und Sprache, und zu welchem Datum (Modell-Versionen ändern sich rapide — daher unser 14-Tage-Rhythmus). Unsere Antworten auf diese drei Fragen sind offengelegt und im Audit-Trail nachprüfbar; das ist der eigentliche Unterschied.

Hinzu kommt bei manuellen wissenschaftlichen Studien oft die Problematik, dass zwischen Durchführung und Veröffentlichung der (zumeist ernüchternden) Ergebnisse z.T. sehr lange Zeiträume von >1,5 Jahren liegen können. Das bedeutet die Studienveröffentlichungen die Sie aktuell vielleicht in den News gelesen haben beziehen sich damit größtenteils auf KI-Modelle die vor über 12 Monaten Stand der Technik waren. Das sind in aktuellen IT-Epochen aber sprichtwörtlich Lichtjahre. Aber vor allen Dingen weiß der Nutzer damit in dieser Sekunde immer noch nicht, was JETZT also aktuell das beste Modell wäre. Dieses ist daher auch der Grund warum wir in unseren Leaderboard-Ranking alle 2 Wochen, alle populären Top-Modell messen. Nur so schaffen wir echte, zeitnahe Transparenz und vor allen Dingen Verlaufsdarstellungen mit praktischem Nutzen.

Nach aktuellem Stand sind KI-Systeme immer noch schlechter als menschliche Beurteilungen, z. B. bei medizinischen Fragestellungen. Stimmt das?

Für anspruchsvolle Fälle: oft ja — und genau so positionieren wir den Leaderboard. Die Fachkraft bleibt vorerst der Maßstab und die letzte Instanz. Unsere eigenen Zahlen sagen dasselbe: selbst das Orakel (für jede Frage vorab das jeweils beste Modell wählen — praktisch nicht erreichbar) bleibt über alle Domänen unter 100 Punkten. Es gibt einen harten Rest, den derzeit kein Modell löst (warum eine Zahl pro Modell täuscht).

KI ist hier ein Werkzeug zur Unterstützung und Zweitmeinung, kein Ersatz für die fachliche Beurteilung. Der Leaderboard hilft, für die nächsten zwei Wochen das verlässlichste verfügbare Werkzeug zu wählen — die inhaltliche Verantwortung, die Gegen-Lektüre und die Letztentscheidung bleiben beim Berufsträger. Die Ranking-Werte sind methodisch abgeleitete Orientierung, ausdrücklich keine rechtliche, steuerliche oder ärztliche Beratung.

Allerdings ist eine weitere Ehrlichkeit des täglichen Lebens notwendigerweise einzugestehen: Wie hoch die Wahrscheinlichkeit ist mit (s)einer persönlichen Frage an einen menschlichen Fachexperten zu gelangen, der tatsächlich "die" gewünschte korrekte und fundierte Antwort geben kann, ist ebenfalls unsicher. Denn auch nicht jeder Mensch ist tatsächlich uneingeschränkter Experte seines Fachs. Beispiel: Unser Roundtable KI Modell hätte das schweizerische Jura-Staatsexamen in allen Durchlöufen mit einer Abschlussnote von 1.x im ersten Durchlauf bestanden. Wieviele Menschen schaffen das ebenfalls? Erfahrungsgemäß wenige. Und noch weniger sind definitiv besser als eine KI - noch. Wie hoch die Wahrscheinlichkeit ist mit einem Anliegen bei einem tatsächlichen Experten zu landen, möge der Leser besser selbst einschätzen.

Was fange ich mit den Ergebnissen dieser Rankings nun ganz konkret an?

Praktisch in fünf Schritten:

  • Modell pro Domäne wählen. Für die nächste Aufgabe das aktuell für Ihre Domäne (Steuer / Medizin / Jura / Wirtschaftsrecht) am höchsten platzierte Modell einsetzen — nicht pauschal „das beste Modell".
  • Nicht einem einzigen Modell vertrauen. Bei wichtigen Fragen mehrere Modelle gegeneinander prüfen lassen; der Abstand zum Orakel zeigt, dass jedes fix gewählte Solo-Modell Lücken hat.
  • Output als Entwurf behandeln. Jede Antwort ist Zuarbeit, die fachliche Gegen-Lektüre bleibt Pflicht — vor allem bei hohem Score, der trügerisch sicher wirkt.
  • Halluzinations-Rate mitlesen. Sie kalibriert, wie skeptisch Sie Fundstellen, Aktenzeichen und Zahlen prüfen sollten.
  • Alle 14 Tage neu schauen. Die Empfehlung von vor drei Monaten ist heute oft die falsche — Modell-Versionen verschieben die Reihenfolge.
Wodurch lässt sich die Sicherheit von KI-Systemen bei wichtigen Fragestellungen erhöhen?

Es gibt mehrere wirksame Hebel, die sich kombinieren lassen:

  • Mehrere unabhängige Modelle kreuzweise prüfen lassen. Das Prinzip hinter Triple-Judge und der AI-Roundtable App: ein Befund, den mehrere Modelle aus verschiedenen Familien tragen, ist belastbarer als die Aussage eines Einzelmodells.
  • Antworten an Quellen binden. Statt freier Generierung das Modell mit echten Dokumenten und Fundstellen arbeiten lassen (Retrieval, Dokument-Abruf, Web-/URL-Abruf) und jede zitierte Stelle gegenprüfen.
  • Mensch in der Schleife. Fachliche Abschluss-Kontrolle durch den Berufsträger bleibt der wichtigste Sicherheitsanker.
  • Quellen einfordern und verifizieren. Explizit nach Aktenzeichen, Paragraph, Leitlinie fragen — und prüfen, ob es sie wirklich gibt.
  • Das passende Modell für die Domäne wählen — nach aktuellem Ranking, nicht nach Gewohnheit.
  • Sensible Daten pseudonymisieren, bevor sie ein Modell überhaupt sehen (in der App über den Mandatsmodus abgesichert).
Inwieweit lassen sich z. B. Halluzinationen erkennen oder sogar reduzieren?

Beides ist möglich — vollständig ausschließen lässt sich eine Halluzination nicht, aber erkennen und deutlich verringern.

Erkennen:

  • Konsens über mehrere Modelle. Eine Tatsache, die nur ein einziges Modell behauptet und die anderen nicht stützen, ist verdächtig.
  • Quellen-Abgleich. Prüfen, ob das genannte Aktenzeichen, der Paragraph oder die zitierte Studie real existiert — frei erfundene Fundstellen sind der häufigste Fall.
  • Maschinelle Extraktion. Unsere Judges ziehen jede frei erfundene Behauptung (falsches Az., erfundener Paragraph, nicht-existierende Studie) wortwörtlich aus der Antwort und publizieren die aggregierte Halluzinations-Rate pro Lauf.

Reduzieren:

  • An echte Quellen binden (Retrieval / Tool-Use): Das Modell argumentiert auf vorgelegten Dokumenten statt aus dem Gedächtnis.
  • Modell-Debatte, in der sich die Modelle gegenseitig auf unbelegte Aussagen festnageln — genau das Verfahren der AI-Roundtable App.
  • Zitate einfordern und verifizieren sowie eng umrissene, gut gestellte Prompts statt offener „Erzähl mir von …"-Fragen.

Mehr zur Halluzinations-Erfassung im Bewertungsverfahren: Methodik → Bewertung.

Auf welcher empirischen Grundlage steht dieses Ranking?

Bevor der Leaderboard im April 2026 in den Betrieb ging, wurde die Bewertungs-Pipeline in einer mehrmonatigen Validierungs-Studie über vier Berufsfelder hinweg geprüft. Erst nach Bestehen dieser Cross-Domain-Validierung wurden die heutigen Lauf-Parameter eingefroren.

4

Domänen wissenschaftlich validiert

Steuerrecht, Medizin (BMJ + Multimorbiditäts-Fälle), Jura (BGH-Senate quotengewichtet) und Wirtschaftsrecht — jede Domäne mit einer eigenen Frage-Bank-Version und reproduzierbarer Skoring-Pipeline.

200+

Validation-Sessions pro Domain-Sprint

Phase-E-Sprints mit jeweils N=25–100 realen Fall-Items pro Lauf, getestet auf Inter-Judge-Stabilität (ρ ≥ 0,84), Cross-Domain-Generalisierung und Memorization-Confound-Robustheit (Pre-/Post-Trainings-Cutoff vergleich).

3

unabhängige Judge-Familien

Anthropic + OpenAI + Mistral als Triple-Judge; source-label-blinded Bewertung pro Antwort. Mehr Detail unter Methodik → Triple-Judge.

Die in der Validierungs-Phase ermittelten methodischen Befunde (z. B. Mistral-Tax-Schwäche als Domain-Stratifikations-Effekt, Expert-Roles-Lift in BFH, Inter-Judge-Stabilität nach Tier-1-Prompts) fließen in die Methodik des laufenden Leaderboards ein und sind im vollständigen Methodik-Dokument nachvollziehbar dokumentiert.

Die vollständige Cross-Domain-Validierung mit allen Roh-Statistiken, Win-/Loss-/Tie-Tabellen pro Sub-Stratum, Limitations und Critique-Response liegt öffentlich als 10-File-Gist vor:

→ Public Validation Gist · 10 Files · ~80 Sessions Cross-Domain

Enthält u. a.: Methodik, Legal Study (BGH/BFH), Medical Study (BMJ + MedExpQA), Raw-Metrics-JSON, Production-Roadmap, Limitations & Threats-to-Validity, Critique Response, Layman Abstract. Direkt zur Limitations-Datei →

Warum macht ihr die Frage-Bank nicht öffentlich?
Schutz vor Trainings-Kontamination. Die synthetischen Mandats-Items (etwa 70-90 % jeder Domain-Bank) liegen ausschließlich in einem privaten Repository und werden niemals publiziert. Würden die Item-Prompts öffentlich, könnten Modell-Anbieter sie in ihren nächsten Trainings-Datensatz aufnehmen — das Ranking würde von einer Messung echter Generalisierungs-Fähigkeit zu einer Messung von Auswendiglernen kippen, und alle Folge-Läufe wären kontaminiert. Aus demselben Grund werden im publizierten raw.jsonl die Modell-Antwort-Texte sowie die wörtlich extrahierten Halluzinationen entfernt — daraus wären die Original-Fall-Konstellationen rekonstruierbar. Die aggregierten Validations-Resultate (oben im Gist) bleiben dabei vollständig öffentlich — kein einzelner Item-Text in den 10 Files, nur Methodik, Sub-Stratum- Statistik und Cross-Domain-Vergleich. Vollständige Roh-Antworten gibt es ausschließlich auf direkte NDA-Anfrage für externes Auditing.

Jetzt weiterempfehlen

Kennen Sie jemanden, der im betrieblich-professionellen Umfeld mit KI arbeitet? Der Leaderboard ist als Branchen-Standard für reproduzierbare Modell-Bewertung gedacht — Verbreitung ist Teil der Wirkung.

Audit-Trail

Jeder Lauf wird als kompletter, unveränderbarer Datensatz publiziert.

Aktueller Lauf — wird geladen …
Items · Modelle · Triple-Judge · Inter-Rater
Run-ID:
Live-API:
→ Vollständige Lauf-Historie
Ranking-Infodienst · kostenfrei · inkl. Whitepaper

Jetzt Ranking-Leaderboard abonnieren und das Whitepaper-PDF erhalten

Alle zwei Wochen bekommen Sie die fundierte Auswertung aus Ihrem Fachbereich — auf welches Modell Sie oder Ihre Kolleg:innen vorrangig setzen sollten, solange Sie noch keine AI-Roundtable-App einsetzen. Nach der Anmeldung erhalten Sie einmalig unser Whitepaper als PDF. Double-Opt-In, jederzeit mit einem Klick abbestellbar, keine Weitergabe an Dritte.

DOUBLE-OPT-IN · KEINE WEITERGABE AN DRITTE · VORLÄUFIG KOSTENFREI, ÄNDERUNGEN VORBEHALTEN