Audit-Trail

Vollständige Roh-Daten jedes Laufs.

Jeder publizierte Lauf liegt hier als kompletter, unveränderter JSONL-Datensatz vor. Inklusive aller Modell-Antworten, aller Judge-Begründungen und der Halluzinations-Extraktion.

Pro Lauf verfügbar

Jeder Lauf erscheint hier mit folgenden öffentlichen Artefakten:

progress.jsonl — eine Zeile pro (Modell × Item × Replikat)-Cell mit Antwort, Token-Verbrauch, Halluzinations-Marker.
raw.jsonl — vollständige Judge-Outputs: entail/missing/contradict-Verdikt pro Soll-Fakt, plus Extra-False-Claims-Liste pro Judge.
summary.json — pro (Modell × Domäne) aggregierte Scores, Bootstrap-CI, Halluzinations-Rate, Inter-Rater-Agreement, Token-Bilanz und USD-Kosten der Pipeline.
MANIFEST.json — Run-Metadaten: Lauf-ID, Zeitpunkt, Frage-Bank-Version, aktive Modelle, aktive Judges, Code-Version.

Lauf-Historie

Chronologische Liste aller publizierten Läufe — neuester zuerst. Pro Eintrag: Datum, Run-ID, Modell-/Judge-Zahl, Item-Zahl und direkte Links zu den Roh-Daten (JSONL + Summary).

⏳

Lade Lauf-Historie …

Wie ich den Audit-Trail nutze

Drei Anwendungsfälle, für die der offene Audit-Trail entworfen ist:

Stichproben-Verifikation: ich greife mir eine beliebige Modell-Antwort, lese die Judge-Begründung und entscheide selbst, ob die Bewertung trägt.
Halluzinations-Audit: ich filtere extra_false_claims nach einem Modell und sehe alle frei erfundenen Behauptungen wortwörtlich.
Methodik-Überprüfung: ich ziehe zwei Läufe mit derselben question_bank_version und prüfe, ob die Reproduzierbarkeits-Garantie eingehalten ist.