Methodik

Wie das Leaderboard zustande kommt.

Diese Seite beschreibt das Bewertungs-Verfahren in vollem Umfang. Die Standalone-Pipeline produziert pro Lauf einen reproduzierbaren JSONL-Datensatz; dieser ist im Audit-Trail öffentlich zugänglich und ersetzt jede Behauptung, die nicht durch Daten belegt ist.

Wie das Leaderboard zu lesen ist — die wichtigste Regel: Jeder Score trägt ein 95-%-Bootstrap-Konfidenzintervall. Liegen zwei Modelle in ihren CI-Bändern überlappend (typischerweise ±2 Punkte bei aktueller Stichprobengröße), werden sie als statistisch gleichauf gezeigt — gleiche Rangposition, gleich hohe Säule, gemeinsame Caption. Eine Reihenfolge wird erst behauptet, wenn die CI-Bänder sich nicht mehr überschneiden. Details unten unter „Bootstrap-Konfidenzintervalle".

Bootstrap-Konfidenzintervalle & Rang-Gleichstand

Pro (Modell × Domäne) werden 1000 Bootstrap-Resamples auf den Cell-Scores gezogen, das 95-%-Perzentil-Intervall publiziert. Kein Punktwert ohne Unsicherheits-Angabe — eine Score-Differenz, die innerhalb der CI-Bänder liegt, ist statistisch nicht differenzierbar und wird auch nicht als Ranking-Differenz behauptet.

Konkretes Beispiel aus Run #7: Mistral Large 2 (top100 = 45) und Gemini 2.5 Pro (top100 = 44) liegen bei N = 33 Items innerhalb ihres jeweiligen 95-%-Bootstrap-CI von ungefähr ±2 Punkten. Beide Modelle werden deshalb auf der Ranking-Seite als gemeinsamer Rang 3 mit gleich hohen Säulen visualisiert, nicht als Rang 3 und Rang 4. Bei größerem N (Pilot #2 zielt auf 100 Items) verengen sich die CI-Bänder und feinere Unterschiede werden differenzierbar — die aktuelle Gleichstellung ist also explizit eine Stichproben-Eigenschaft, keine Modell-Aussage.

Konsequenz für Leser: Wenn die Ranking-Grafik zwei Modelle als gleichauf zeigt, dann ist jedes der beiden eine gleich gut belegte Wahl. Wer eine harte Tie-Break-Regel braucht, findet die Halluzinations-Rate und das Inter-Rater-Agreement pro Cell im Audit-Trail — beides Tie-Breaker, die nicht auf einer Schein-Genauigkeit des Mittelwerts beruhen.

Die folgenden Abschnitte dokumentieren das Verfahren im Detail. Jeder Punkt ist eingeklappt — klick zum Aufklappen oder folge einem direkten Anchor-Link (z. B. /methodik#triple-judge). Anchor-Links öffnen den jeweiligen Abschnitt automatisch.

Wie ist die Frage-Bank pro Domäne aufgebaut?

Jede der vier Domänen hat eine versionierte Frage-Bank im Repository. Die Bank trennt zwei Arten:

Öffentliche Items — direkt aus zugänglichen Quellen abgeleitet (BFH-Urteile, BGH-Entscheidungen, medizinische Leitlinien, juristische Standardliteratur). Diese messen, wie gut ein Modell etablierte Inhalte beherrscht.
Synthetische Items — von einem Proposer-Modell erstellt, von einem Reviewer-Modell kritisiert, vom Inhaber human-freigegeben. Realitätsnahe Mandatsfälle mit verflochtenen Faktoren — keine Lehrbuch-Aufgaben. Diese messen, wie gut ein Modell unbekannte Konstellationen bewältigt, und eliminieren den Trainings-Effekt sowie den Tool-Such-Vorteil.

Frage-Bank-Versionierung über Git: ein zweiter Lauf gegen dieselbe question_bank_version produziert byte-identische Antworten. Methodik-Änderungen triggern eine neue Version; alte Datenpunkte bleiben unter ihrer Original-Version sichtbar.

Synthetische Items bleiben privat — bewusst. Die Item-Prompts (Fall-Konstellationen, Soll-Fakten, Bewertungs-Rubriken) liegen ausschließlich in einem privaten Repository und werden niemals veröffentlicht. Würde der Frage-Katalog öffentlich, könnten Modell-Anbieter die Items in ihren nächsten Trainings-Datensatz aufnehmen — das Ranking würde von echter Generalisierungs-Fähigkeit auf Auswendiglernen kippen. Im publizierten raw.jsonl werden außerdem die Modell-Antwort-Texte und die wörtlich extrahierten Halluzinationen entfernt, weil daraus die Original-Items rekonstruierbar wären. Die aggregierten Cross-Domain-Validations-Resultate sind dagegen vollständig offen im öffentlichen Validations-Gist (10 Files: Methodik, Legal Study, Medical Study, Limitations, Critique Response, …) — kein einzelner Item-Text darin enthalten. Roh-Antworten gibt es ausschließlich auf direkte NDA-Anfrage.

Welche Modelle werden bewertet — und wie ist die Tool-Konfiguration?

Bewertet werden alle aktivierten Spitzen-Modelle der vier Provider — typischerweise Anthropic, OpenAI, Google, Mistral. Plug-in-Pattern via models.json: neue Anbieter werden per Konfig-Eintrag aktiviert, kein Code-Eingriff nötig.

Pro Cell wird das Modell zweimal getestet: einmal solo (kein Tool-Zugriff) und einmal mit aktivierter Tool-Registry (web_search, doc_retrieval, pubmed_search, arxiv_search, url_fetch). Beide Reihen werden separat publiziert, weil die Modell-Reihenfolge sich zwischen den beiden Modi spürbar verschieben kann.

Wichtiger noch: das beste Modell wechselt von Frage zu Frage — auch innerhalb derselben Domäne. Warum eine einzelne Ranking-Prozentzahl deshalb täuscht (und was das „Orakel" / Bester-pro-Frage bedeutet): Ranking → Kein Modell ist überall vorn.

Wie wird bewertet — Closed-Items, Open-Items, Halluzinations-Erkennung?

Items kennen zwei Antworttypen:

Closed-Items erwarten eine konkrete Antwort (Zahl, Multiple-Choice, exakter Wert). Bewertet via Regex- oder Range-Match: 1 oder 0 pro Item.
Open-Items erwarten eine ausformulierte Begründung. Bewertet von einem dedizierten Open-Rubric-Judge der für jeden hinterlegten Soll-Fakt entscheidet: entail (im Modell-Output enthalten), missing (fehlt) oder contradict (widerspricht).

Zusätzlich erfasst der Judge in jeder Antwort Extra-False-Claims — frei erfundene Behauptungen jenseits der Soll-Rubric. Erfundene Aktenzeichen, falsche Paragraphen-Nummern, frei erfundene Studien, falsche Zahlen werden wortwörtlich extrahiert, intern archiviert, und in aggregierter Form pro Lauf als Halluzinations-Rate publiziert.

Was ist Triple-Judge — und warum drei Modell-Familien?

Jede Open-Item-Antwort wird von drei unabhängigen Judge-Modellen aus drei verschiedenen Anbieter-Familien bewertet: Claude Opus 4.7 (Anthropic) · GPT-5 (OpenAI) · Mistral Large 2 (Mistral). Die Antworten erreichen den Judge source-label-blinded: kein Judge weiß, welches Modell die zu bewertende Antwort produziert hat.

Aggregiert wird über den Mittelwert der drei Judge-Scores. Das Inter-Rater-Agreement (Übereinstimmungsrate über die drei Judges) wird pro Cell als zusätzliche Audit-Kennzahl publiziert — niedriges Agreement signalisiert eine Konstellation, in der die Bewertung selbst Unsicherheit trägt.

Begründung der Drei-Familien-Auswahl: Wären zwei der drei Judges aus derselben Modell-Familie, könnte die Bewertung des dritten Familien-Modells systematisch verzerrt sein. Anthropic + OpenAI + Mistral als drei unabhängige Anbieter eliminieren diese Single-Family-Verzerrung.

Wie ist Reproduzierbarkeit gesichert?

Sampling-Parameter sind deterministisch: temperature=0 (außer bei Reasoning-Modellen, die das nicht akzeptieren). Frage-Bank ist git-versioniert. Modell-Konfig (models.json) ist git-versioniert. Tool-Konfig ist git-versioniert. Ein zweiter Lauf gegen dieselbe Version + dieselben Modelle muss innerhalb der dokumentierten Toleranz dieselben Scores produzieren — Abweichungen werden als Audit-Befund vermerkt.

Wie funktioniert die Append-Only-Historie?

Einmal publizierte Lauf-Ergebnisse werden niemals modifiziert oder gelöscht — auch nicht bei späteren Methodik-Änderungen. Wer in drei Jahren den Lauf vom Juni 2026 auditieren möchte, findet das identische JSONL unter derselben URL wie heute.

Methodik-Veränderungen (neue Frage-Bank-Version, geänderter Judge-Modell-Mix, neuer Tool-Slot) erzeugen eine neue question_bank_version. Datenpunkte in den Charts werden mit ihrer Version annotiert; ein Methodik-Wechsel ist im Trend-Diagramm als eigene Marke sichtbar.

Was bewusst NICHT im Leaderboard steht — und warum?

Bewusste Auslassungen, weil sie das Bewertungs-Bild verfälschen würden:

Keine Latenz-/Kosten-Balance — Kosten und Antwortzeiten variieren je nach Tarif des Konsumenten und sind keine Modell-Eigenschaft.
Keine Ranglisten ohne Konfidenz-Angabe — wenn zwei Modelle innerhalb der CI-Bänder liegen, werden sie als gleichauf dargestellt.
Keine Marketing-Modelle — beworbene Modell-Varianten ohne API-Zugang werden nicht aufgenommen.