Vollständige Roh-Daten jedes Laufs.
Jeder publizierte Lauf liegt hier als kompletter, unveränderter JSONL-Datensatz vor. Inklusive aller Modell-Antworten, aller Judge-Begründungen und der Halluzinations-Extraktion.
Pro Lauf verfügbar
Jeder Lauf erscheint hier mit folgenden öffentlichen Artefakten:
progress.jsonl— eine Zeile pro (Modell × Item × Replikat)-Cell mit Antwort, Token-Verbrauch, Halluzinations-Marker.raw.jsonl— vollständige Judge-Outputs: entail/missing/contradict-Verdikt pro Soll-Fakt, plus Extra-False-Claims-Liste pro Judge.summary.json— pro (Modell × Domäne) aggregierte Scores, Bootstrap-CI, Halluzinations-Rate, Inter-Rater-Agreement, Token-Bilanz und USD-Kosten der Pipeline.MANIFEST.json— Run-Metadaten: Lauf-ID, Zeitpunkt, Frage-Bank-Version, aktive Modelle, aktive Judges, Code-Version.
Lauf-Historie
Chronologische Liste aller publizierten Läufe — neuester zuerst. Pro Eintrag: Datum, Run-ID, Modell-/Judge-Zahl, Item-Zahl und direkte Links zu den Roh-Daten (JSONL + Summary).
Wie ich den Audit-Trail nutze
Drei Anwendungsfälle, für die der offene Audit-Trail entworfen ist:
- Stichproben-Verifikation: ich greife mir eine beliebige Modell-Antwort, lese die Judge-Begründung und entscheide selbst, ob die Bewertung trägt.
- Halluzinations-Audit: ich filtere
extra_false_claimsnach einem Modell und sehe alle frei erfundenen Behauptungen wortwörtlich. - Methodik-Überprüfung: ich ziehe zwei Läufe
mit derselben
question_bank_versionund prüfe, ob die Reproduzierbarkeits-Garantie eingehalten ist.