Methodik

Wie eine Diagnose abläuft, und was sie nicht ist.

Eine von einem Praktiker erstellte Testbank, ein Modell, das mit seinem eigenen, unangetasteten Scaffolding ausgeführt wird, und eine Bewertung durch einen erfahrenen Leser statt durch ein weiteres Modell. Die Methode ist bewusst eng gefasst und ehrlich über ihre Grenzen.

Wie die Testbank aufgebaut ist

Die Bank wird von einem Praktiker erstellt. Sie ist weder LLM-generiert noch per Crowdsourcing erhoben. Die Items sind in den strukturellen Lehrbuchkonventionen verankert Purchase Accounting, arbitragefreie Bewertung, IFRS-9-Klassifizierung, Covenant-Mechanik und werden an realen Referenzbehandlungen validiert.

Jedes Item existiert, um einen bestimmten, benannten Fehlermodus in der Taxonomie zu prüfen. Die Taxonomie ist das öffentliche Gesicht der Bank; die Items selbst bleiben privat.

Wie ein Modell dagegen ausgeführt wird

Die Diagnose führt Ihr eingesetztes Modell oder eine abgegrenzte Teilmenge davon mit erhaltenem Prompt-Scaffolding aus. Es gibt kein Prompt-Re-Engineering meinerseits. Die Bank ist die Konstante; Ihr Produkt ist die Variable.

Das ist entscheidend: Das Ziel ist herauszufinden, wie sich Ihr System im ausgelieferten Zustand verhält, und nicht, wie sich ein sauberer Prompt im Labor verhalten würde.

Wie Antworten bewertet werden

Die Bewertung ist eine strukturelle Bewertung durch erfahrene Praktiker. Ein LLM-as-judge wird nur als Vorfilter für arithmetische Items und Items mit exakter Extraktion eingesetzt niemals für ein finales strukturelles Urteil.

Ein Leaderboard-Judge bei Temperatur null skaliert gut, aber er kann nicht das strukturelle Urteil eines erfahrenen Fachmanns fällen, dass ein Modell eine Liquidation Preference und einen Conversion Value als additiv statt als das Größere von beiden behandelt hat. Dieses Urteil ist das Produkt.

Wie ein Liefergegenstand aussieht

Ein Bericht: eine Executive Summary, eine Liste von Befunden je Subdomain, eine nach Schweregrad gewichtete Priorisierung und eine Behebung, formuliert als Testfälle, die Sie in Ihre eigene interne Regressionssuite einfügen können.

Die Befunde sind typisiert und bewertet. Nichts im Liefergegenstand ist ein Blackbox-Urteil; jeder Befund benennt den Mechanismus und die korrekte Behandlung, damit Ihr Team ihn unabhängig überprüfen kann.

Die Typologie der Fehlermodi

Jeder Befund trägt einen Typ.

Structural

Der falsche Rahmen, selbstbewusst angewandt

Das Modell verwendet eine kohärente Methode, die für den Fall falsch ist. Ein yield to maturity, wo ein Recovery PV erforderlich ist.

Arithmetic

Ein Rechen- oder Konventionsfehler

Der Rahmen ist richtig; die Mathematik oder das Vorzeichen nicht. Skalierung der täglichen VaR mit 252 statt mit ihrer Quadratwurzel.

Hallucination

Eine behauptete Tatsache ohne Grundlage

Eine Zahl, ein Begriff oder eine Behandlung, erfunden, um zu passen. Umsatzsynergien gezählt, die der Standalone-Plan bereits enthält.

Disclosure

Eine wesentliche Auslassung oder ein nicht kenntlich gemachtes Ermessen

Eine Behandlung, die vertretbar, aber dort unausgesprochen bleibt, wo sie die Antwort verändert. Zinsen unter einem Rahmen als operating, unter einem anderen als financing klassifiziert, ohne Anmerkung.

Das Schweregrad-Raster

Und ein Schweregrad, auf die Konsequenz abgestimmt.

Critical

Würde einen Liefergegenstand, den ein erfahrener Praktiker unterzeichnet, wesentlich verfälschen. Der Fehler übersteht eine gewöhnliche Prüfung und verändert eine Entscheidung.

Material

Würde eine Nachbearbeitung erfordern. Falsch genug, um ins Gewicht zu fallen, sichtbar genug, dass ein sorgfältiger zweiter Durchgang ihn erkennen sollte.

Minor

Würde in der Prüfung erkannt. Ein Fehler, den ein kompetenter Prüfer beseitigt, bevor die Arbeit den Schreibtisch verlässt.

Observation

Stil- oder Konventionsabweichung, kein Fehler. Der Vollständigkeit halber vermerkt; keine Maßnahme impliziert.

Die geschichtete Beziehung

Horizontale Evaluierungsplattformen beantworten, was ein Modell erzielt hat. Praktiker-Diagnosen beantworten, wie es versagt hat.

Was diese Diagnose nicht ist

Dies ist keine regulatorische Konformitätsbewertung. Es ist keine Model-Risk-Validierung nach SR 11-7 oder einem analogen Rahmenwerk. Es ist kein öffentlicher Benchmark.

Es ist ein struktureller Fehlerkatalog, abgegrenzt auf die eingesetzte Oberfläche eines Kunden nützlich als Input für die eigene Arbeit eines Validierungsteams, niemals ein Ersatz dafür.

Beispielbefunde, die irgendwo auf dieser Website gezeigt werden, sind illustrative Rekonstruktionen, keine echte Kundenarbeit, keine echten Prompts und keine echten Modell-Traces. Kein Kundensystem wird eingestuft, benannt oder offengelegt.