AI-Roundtable Leaderboard
Methodik

Wie das Leaderboard zustande kommt.

Diese Seite beschreibt das Bewertungs-Verfahren in vollem Umfang. Die Standalone-Pipeline produziert pro Lauf einen reproduzierbaren JSONL-Datensatz; dieser ist im Audit-Trail öffentlich zugänglich und ersetzt jede Behauptung, die nicht durch Daten belegt ist.

Wie das Leaderboard zu lesen ist — die wichtigste Regel: Jeder Score trägt ein 95-%-Bootstrap-Konfidenzintervall. Liegen zwei Modelle in ihren CI-Bändern überlappend (typischerweise ±2 Punkte bei aktueller Stichprobengröße), werden sie als statistisch gleichauf gezeigt — gleiche Rangposition, gleich hohe Säule, gemeinsame Caption. Eine Reihenfolge wird erst behauptet, wenn die CI-Bänder sich nicht mehr überschneiden. Details unten unter „Bootstrap-Konfidenzintervalle".

Die folgenden Abschnitte dokumentieren das Verfahren im Detail. Jeder Punkt ist eingeklappt — klick zum Aufklappen oder folge einem direkten Anchor-Link (z. B. /methodik#triple-judge). Anchor-Links öffnen den jeweiligen Abschnitt automatisch.

Wie ist die Frage-Bank pro Domäne aufgebaut?

Jede der vier Domänen hat eine versionierte Frage-Bank im Repository. Die Bank trennt zwei Arten:

  • Öffentliche Items — direkt aus zugänglichen Quellen abgeleitet (BFH-Urteile, BGH-Entscheidungen, medizinische Leitlinien, juristische Standardliteratur). Diese messen, wie gut ein Modell etablierte Inhalte beherrscht.
  • Synthetische Items — von einem Proposer-Modell erstellt, von einem Reviewer-Modell kritisiert, vom Inhaber human-freigegeben. Realitätsnahe Mandatsfälle mit verflochtenen Faktoren — keine Lehrbuch-Aufgaben. Diese messen, wie gut ein Modell unbekannte Konstellationen bewältigt, und eliminieren den Trainings-Effekt sowie den Tool-Such-Vorteil.

Frage-Bank-Versionierung über Git: ein zweiter Lauf gegen dieselbe question_bank_version produziert byte-identische Antworten. Methodik-Änderungen triggern eine neue Version; alte Datenpunkte bleiben unter ihrer Original-Version sichtbar.

Synthetische Items bleiben privat — bewusst. Die Item-Prompts (Fall-Konstellationen, Soll-Fakten, Bewertungs-Rubriken) liegen ausschließlich in einem privaten Repository und werden niemals veröffentlicht. Würde der Frage-Katalog öffentlich, könnten Modell-Anbieter die Items in ihren nächsten Trainings-Datensatz aufnehmen — das Ranking würde von echter Generalisierungs-Fähigkeit auf Auswendiglernen kippen. Im publizierten raw.jsonl werden außerdem die Modell-Antwort-Texte und die wörtlich extrahierten Halluzinationen entfernt, weil daraus die Original-Items rekonstruierbar wären. Die aggregierten Cross-Domain-Validations-Resultate sind dagegen vollständig offen im öffentlichen Validations-Gist (10 Files: Methodik, Legal Study, Medical Study, Limitations, Critique Response, …) — kein einzelner Item-Text darin enthalten. Roh-Antworten gibt es ausschließlich auf direkte NDA-Anfrage.
Welche Modelle werden bewertet — und wie ist die Tool-Konfiguration?

Bewertet werden alle aktivierten Spitzen-Modelle der vier Provider — typischerweise Anthropic, OpenAI, Google, Mistral. Plug-in-Pattern via models.json: neue Anbieter werden per Konfig-Eintrag aktiviert, kein Code-Eingriff nötig.

Pro Cell wird das Modell zweimal getestet: einmal solo (kein Tool-Zugriff) und einmal mit aktivierter Tool-Registry (web_search, doc_retrieval, pubmed_search, arxiv_search, url_fetch). Beide Reihen werden separat publiziert, weil die Modell-Reihenfolge sich zwischen den beiden Modi spürbar verschieben kann.

Wichtiger noch: das beste Modell wechselt von Frage zu Frage — auch innerhalb derselben Domäne. Warum eine einzelne Ranking-Prozentzahl deshalb täuscht (und was das „Orakel" / Bester-pro-Frage bedeutet): Ranking → Kein Modell ist überall vorn.

Wie wird bewertet — Closed-Items, Open-Items, Halluzinations-Erkennung?

Items kennen zwei Antworttypen:

  • Closed-Items erwarten eine konkrete Antwort (Zahl, Multiple-Choice, exakter Wert). Bewertet via Regex- oder Range-Match: 1 oder 0 pro Item.
  • Open-Items erwarten eine ausformulierte Begründung. Bewertet von einem dedizierten Open-Rubric-Judge der für jeden hinterlegten Soll-Fakt entscheidet: entail (im Modell-Output enthalten), missing (fehlt) oder contradict (widerspricht).

Zusätzlich erfasst der Judge in jeder Antwort Extra-False-Claims — frei erfundene Behauptungen jenseits der Soll-Rubric. Erfundene Aktenzeichen, falsche Paragraphen-Nummern, frei erfundene Studien, falsche Zahlen werden wortwörtlich extrahiert, intern archiviert, und in aggregierter Form pro Lauf als Halluzinations-Rate publiziert.

Was ist Triple-Judge — und warum drei Modell-Familien?

Jede Open-Item-Antwort wird von drei unabhängigen Judge-Modellen aus drei verschiedenen Anbieter-Familien bewertet: Claude Opus 4.7 (Anthropic) · GPT-5 (OpenAI) · Mistral Large 2 (Mistral). Die Antworten erreichen den Judge source-label-blinded: kein Judge weiß, welches Modell die zu bewertende Antwort produziert hat.

Aggregiert wird über den Mittelwert der drei Judge-Scores. Das Inter-Rater-Agreement (Übereinstimmungsrate über die drei Judges) wird pro Cell als zusätzliche Audit-Kennzahl publiziert — niedriges Agreement signalisiert eine Konstellation, in der die Bewertung selbst Unsicherheit trägt.

Begründung der Drei-Familien-Auswahl: Wären zwei der drei Judges aus derselben Modell-Familie, könnte die Bewertung des dritten Familien-Modells systematisch verzerrt sein. Anthropic + OpenAI + Mistral als drei unabhängige Anbieter eliminieren diese Single-Family-Verzerrung.

Wie ist Reproduzierbarkeit gesichert?

Sampling-Parameter sind deterministisch: temperature=0 (außer bei Reasoning-Modellen, die das nicht akzeptieren). Frage-Bank ist git-versioniert. Modell-Konfig (models.json) ist git-versioniert. Tool-Konfig ist git-versioniert. Ein zweiter Lauf gegen dieselbe Version + dieselben Modelle muss innerhalb der dokumentierten Toleranz dieselben Scores produzieren — Abweichungen werden als Audit-Befund vermerkt.

Wie funktioniert die Append-Only-Historie?

Einmal publizierte Lauf-Ergebnisse werden niemals modifiziert oder gelöscht — auch nicht bei späteren Methodik-Änderungen. Wer in drei Jahren den Lauf vom Juni 2026 auditieren möchte, findet das identische JSONL unter derselben URL wie heute.

Methodik-Veränderungen (neue Frage-Bank-Version, geänderter Judge-Modell-Mix, neuer Tool-Slot) erzeugen eine neue question_bank_version. Datenpunkte in den Charts werden mit ihrer Version annotiert; ein Methodik-Wechsel ist im Trend-Diagramm als eigene Marke sichtbar.

Was bewusst NICHT im Leaderboard steht — und warum?

Bewusste Auslassungen, weil sie das Bewertungs-Bild verfälschen würden:

  • Keine Latenz-/Kosten-Balance — Kosten und Antwortzeiten variieren je nach Tarif des Konsumenten und sind keine Modell-Eigenschaft.
  • Keine Ranglisten ohne Konfidenz-Angabe — wenn zwei Modelle innerhalb der CI-Bänder liegen, werden sie als gleichauf dargestellt.
  • Keine Marketing-Modelle — beworbene Modell-Varianten ohne API-Zugang werden nicht aufgenommen.