Wie eine Diagnose abläuft, und was sie nicht ist.
Eine von einem Praktiker erstellte Testbank, ein Modell, das mit seinem eigenen, unangetasteten Scaffolding ausgeführt wird, und eine Bewertung durch einen erfahrenen Leser statt durch ein weiteres Modell. Die Methode ist bewusst eng gefasst und ehrlich über ihre Grenzen.
Wie die Testbank aufgebaut ist
Die Bank wird von einem Praktiker erstellt. Sie ist weder LLM-generiert noch per Crowdsourcing erhoben. Die Items sind in den strukturellen Lehrbuchkonventionen verankert Purchase Accounting, arbitragefreie Bewertung, IFRS-9-Klassifizierung, Covenant-Mechanik und werden an realen Referenzbehandlungen validiert.
Jedes Item existiert, um einen bestimmten, benannten Fehlermodus in der Taxonomie zu prüfen. Die Taxonomie ist das öffentliche Gesicht der Bank; die Items selbst bleiben privat.
Wie ein Modell dagegen ausgeführt wird
Die Diagnose führt Ihr eingesetztes Modell oder eine abgegrenzte Teilmenge davon mit erhaltenem Prompt-Scaffolding aus. Es gibt kein Prompt-Re-Engineering meinerseits. Die Bank ist die Konstante; Ihr Produkt ist die Variable.
Das ist entscheidend: Das Ziel ist herauszufinden, wie sich Ihr System im ausgelieferten Zustand verhält, und nicht, wie sich ein sauberer Prompt im Labor verhalten würde.
Wie Antworten bewertet werden
Die Bewertung ist eine strukturelle Bewertung durch erfahrene Praktiker. Ein LLM-as-judge wird nur als Vorfilter für arithmetische Items und Items mit exakter Extraktion eingesetzt niemals für ein finales strukturelles Urteil.
Ein Leaderboard-Judge bei Temperatur null skaliert gut, aber er kann nicht das strukturelle Urteil eines erfahrenen Fachmanns fällen, dass ein Modell eine Liquidation Preference und einen Conversion Value als additiv statt als das Größere von beiden behandelt hat. Dieses Urteil ist das Produkt.
Wie ein Liefergegenstand aussieht
Ein Bericht: eine Executive Summary, eine Liste von Befunden je Subdomain, eine nach Schweregrad gewichtete Priorisierung und eine Behebung, formuliert als Testfälle, die Sie in Ihre eigene interne Regressionssuite einfügen können.
Die Befunde sind typisiert und bewertet. Nichts im Liefergegenstand ist ein Blackbox-Urteil; jeder Befund benennt den Mechanismus und die korrekte Behandlung, damit Ihr Team ihn unabhängig überprüfen kann.
Jeder Befund trägt einen Typ.
Der falsche Rahmen, selbstbewusst angewandt
Das Modell verwendet eine kohärente Methode, die für den Fall falsch ist. Ein yield to maturity, wo ein Recovery PV erforderlich ist.
Ein Rechen- oder Konventionsfehler
Der Rahmen ist richtig; die Mathematik oder das Vorzeichen nicht. Skalierung der täglichen VaR mit 252 statt mit ihrer Quadratwurzel.
Eine behauptete Tatsache ohne Grundlage
Eine Zahl, ein Begriff oder eine Behandlung, erfunden, um zu passen. Umsatzsynergien gezählt, die der Standalone-Plan bereits enthält.
Eine wesentliche Auslassung oder ein nicht kenntlich gemachtes Ermessen
Eine Behandlung, die vertretbar, aber dort unausgesprochen bleibt, wo sie die Antwort verändert. Zinsen unter einem Rahmen als operating, unter einem anderen als financing klassifiziert, ohne Anmerkung.
Und ein Schweregrad, auf die Konsequenz abgestimmt.
Würde einen Liefergegenstand, den ein erfahrener Praktiker unterzeichnet, wesentlich verfälschen. Der Fehler übersteht eine gewöhnliche Prüfung und verändert eine Entscheidung.
Würde eine Nachbearbeitung erfordern. Falsch genug, um ins Gewicht zu fallen, sichtbar genug, dass ein sorgfältiger zweiter Durchgang ihn erkennen sollte.
Würde in der Prüfung erkannt. Ein Fehler, den ein kompetenter Prüfer beseitigt, bevor die Arbeit den Schreibtisch verlässt.
Stil- oder Konventionsabweichung, kein Fehler. Der Vollständigkeit halber vermerkt; keine Maßnahme impliziert.
Horizontale Evaluierungsplattformen beantworten, was ein Modell erzielt hat. Praktiker-Diagnosen beantworten, wie es versagt hat.
Dies ist keine regulatorische Konformitätsbewertung. Es ist keine Model-Risk-Validierung nach SR 11-7 oder einem analogen Rahmenwerk. Es ist kein öffentlicher Benchmark.
Es ist ein struktureller Fehlerkatalog, abgegrenzt auf die eingesetzte Oberfläche eines Kunden nützlich als Input für die eigene Arbeit eines Validierungsteams, niemals ein Ersatz dafür.
Beispielbefunde, die irgendwo auf dieser Website gezeigt werden, sind illustrative Rekonstruktionen, keine echte Kundenarbeit, keine echten Prompts und keine echten Modell-Traces. Kein Kundensystem wird eingestuft, benannt oder offengelegt.