Wie das Leaderboard zustande kommt.
Diese Seite beschreibt das Bewertungs-Verfahren in vollem Umfang. Die Standalone-Pipeline produziert pro Lauf einen reproduzierbaren JSONL-Datensatz; dieser ist im Audit-Trail öffentlich zugänglich und ersetzt jede Behauptung, die nicht durch Daten belegt ist.
Bootstrap-Konfidenzintervalle & Rang-Gleichstand
Pro (Modell × Domäne) werden 1000 Bootstrap-Resamples auf den Cell-Scores gezogen, das 95-%-Perzentil-Intervall publiziert. Kein Punktwert ohne Unsicherheits-Angabe — eine Score-Differenz, die innerhalb der CI-Bänder liegt, ist statistisch nicht differenzierbar und wird auch nicht als Ranking-Differenz behauptet.
Konkretes Beispiel aus Run #7: Mistral Large 2 (top100 = 45) und Gemini 2.5 Pro (top100 = 44) liegen bei N = 33 Items innerhalb ihres jeweiligen 95-%-Bootstrap-CI von ungefähr ±2 Punkten. Beide Modelle werden deshalb auf der Ranking-Seite als gemeinsamer Rang 3 mit gleich hohen Säulen visualisiert, nicht als Rang 3 und Rang 4. Bei größerem N (Pilot #2 zielt auf 100 Items) verengen sich die CI-Bänder und feinere Unterschiede werden differenzierbar — die aktuelle Gleichstellung ist also explizit eine Stichproben-Eigenschaft, keine Modell-Aussage.
Konsequenz für Leser: Wenn die Ranking-Grafik zwei Modelle als gleichauf zeigt, dann ist jedes der beiden eine gleich gut belegte Wahl. Wer eine harte Tie-Break-Regel braucht, findet die Halluzinations-Rate und das Inter-Rater-Agreement pro Cell im Audit-Trail — beides Tie-Breaker, die nicht auf einer Schein-Genauigkeit des Mittelwerts beruhen.
Die folgenden Abschnitte dokumentieren das Verfahren im Detail.
Jeder Punkt ist eingeklappt — klick zum Aufklappen oder folge einem
direkten Anchor-Link (z. B. /methodik#triple-judge).
Anchor-Links öffnen den jeweiligen Abschnitt automatisch.
Wie ist die Frage-Bank pro Domäne aufgebaut?
Jede der vier Domänen hat eine versionierte Frage-Bank im Repository. Die Bank trennt zwei Arten:
- Öffentliche Items — direkt aus zugänglichen Quellen abgeleitet (BFH-Urteile, BGH-Entscheidungen, medizinische Leitlinien, juristische Standardliteratur). Diese messen, wie gut ein Modell etablierte Inhalte beherrscht.
- Synthetische Items — von einem Proposer-Modell erstellt, von einem Reviewer-Modell kritisiert, vom Inhaber human-freigegeben. Realitätsnahe Mandatsfälle mit verflochtenen Faktoren — keine Lehrbuch-Aufgaben. Diese messen, wie gut ein Modell unbekannte Konstellationen bewältigt, und eliminieren den Trainings-Effekt sowie den Tool-Such-Vorteil.
Frage-Bank-Versionierung über Git: ein zweiter Lauf gegen dieselbe
question_bank_version produziert byte-identische
Antworten. Methodik-Änderungen triggern eine neue Version; alte
Datenpunkte bleiben unter ihrer Original-Version sichtbar.
raw.jsonl
werden außerdem die Modell-Antwort-Texte und die wörtlich
extrahierten Halluzinationen entfernt, weil daraus die
Original-Items rekonstruierbar wären.
Die aggregierten Cross-Domain-Validations-Resultate
sind dagegen vollständig offen im
öffentlichen Validations-Gist
(10 Files: Methodik, Legal Study, Medical Study, Limitations,
Critique Response, …) — kein einzelner Item-Text darin
enthalten. Roh-Antworten gibt es ausschließlich auf direkte
NDA-Anfrage.
Welche Modelle werden bewertet — und wie ist die Tool-Konfiguration?
Bewertet werden alle aktivierten Spitzen-Modelle der vier
Provider — typischerweise Anthropic, OpenAI, Google, Mistral.
Plug-in-Pattern via models.json: neue Anbieter werden
per Konfig-Eintrag aktiviert, kein Code-Eingriff nötig.
Pro Cell wird das Modell zweimal getestet: einmal solo (kein
Tool-Zugriff) und einmal mit aktivierter Tool-Registry
(web_search, doc_retrieval,
pubmed_search, arxiv_search,
url_fetch). Beide Reihen werden separat publiziert,
weil die Modell-Reihenfolge sich zwischen den beiden Modi spürbar
verschieben kann.
Wichtiger noch: das beste Modell wechselt von Frage zu Frage — auch innerhalb derselben Domäne. Warum eine einzelne Ranking-Prozentzahl deshalb täuscht (und was das „Orakel" / Bester-pro-Frage bedeutet): Ranking → Kein Modell ist überall vorn.
Wie wird bewertet — Closed-Items, Open-Items, Halluzinations-Erkennung?
Items kennen zwei Antworttypen:
- Closed-Items erwarten eine konkrete Antwort (Zahl, Multiple-Choice, exakter Wert). Bewertet via Regex- oder Range-Match: 1 oder 0 pro Item.
- Open-Items erwarten eine ausformulierte
Begründung. Bewertet von einem dedizierten Open-Rubric-Judge
der für jeden hinterlegten Soll-Fakt entscheidet:
entail(im Modell-Output enthalten),missing(fehlt) odercontradict(widerspricht).
Zusätzlich erfasst der Judge in jeder Antwort Extra-False-Claims — frei erfundene Behauptungen jenseits der Soll-Rubric. Erfundene Aktenzeichen, falsche Paragraphen-Nummern, frei erfundene Studien, falsche Zahlen werden wortwörtlich extrahiert, intern archiviert, und in aggregierter Form pro Lauf als Halluzinations-Rate publiziert.
Was ist Triple-Judge — und warum drei Modell-Familien?
Jede Open-Item-Antwort wird von drei unabhängigen Judge-Modellen aus drei verschiedenen Anbieter-Familien bewertet: Claude Opus 4.7 (Anthropic) · GPT-5 (OpenAI) · Mistral Large 2 (Mistral). Die Antworten erreichen den Judge source-label-blinded: kein Judge weiß, welches Modell die zu bewertende Antwort produziert hat.
Aggregiert wird über den Mittelwert der drei Judge-Scores. Das Inter-Rater-Agreement (Übereinstimmungsrate über die drei Judges) wird pro Cell als zusätzliche Audit-Kennzahl publiziert — niedriges Agreement signalisiert eine Konstellation, in der die Bewertung selbst Unsicherheit trägt.
Begründung der Drei-Familien-Auswahl: Wären zwei der drei Judges aus derselben Modell-Familie, könnte die Bewertung des dritten Familien-Modells systematisch verzerrt sein. Anthropic + OpenAI + Mistral als drei unabhängige Anbieter eliminieren diese Single-Family-Verzerrung.
Wie ist Reproduzierbarkeit gesichert?
Sampling-Parameter sind deterministisch: temperature=0
(außer bei Reasoning-Modellen, die das nicht akzeptieren). Frage-Bank
ist git-versioniert. Modell-Konfig (models.json) ist
git-versioniert. Tool-Konfig ist git-versioniert. Ein zweiter Lauf
gegen dieselbe Version + dieselben Modelle muss innerhalb der
dokumentierten Toleranz dieselben Scores produzieren — Abweichungen
werden als Audit-Befund vermerkt.
Wie funktioniert die Append-Only-Historie?
Einmal publizierte Lauf-Ergebnisse werden niemals modifiziert oder gelöscht — auch nicht bei späteren Methodik-Änderungen. Wer in drei Jahren den Lauf vom Juni 2026 auditieren möchte, findet das identische JSONL unter derselben URL wie heute.
Methodik-Veränderungen (neue Frage-Bank-Version, geänderter
Judge-Modell-Mix, neuer Tool-Slot) erzeugen eine neue
question_bank_version. Datenpunkte in den Charts
werden mit ihrer Version annotiert; ein Methodik-Wechsel ist im
Trend-Diagramm als eigene Marke sichtbar.
Was bewusst NICHT im Leaderboard steht — und warum?
Bewusste Auslassungen, weil sie das Bewertungs-Bild verfälschen würden:
- Keine Latenz-/Kosten-Balance — Kosten und Antwortzeiten variieren je nach Tarif des Konsumenten und sind keine Modell-Eigenschaft.
- Keine Ranglisten ohne Konfidenz-Angabe — wenn zwei Modelle innerhalb der CI-Bänder liegen, werden sie als gleichauf dargestellt.
- Keine Marketing-Modelle — beworbene Modell-Varianten ohne API-Zugang werden nicht aufgenommen.