Méthodologie

Comment se déroule un diagnostic, et ce qu'il n'est pas.

Une banque de tests rédigée par un praticien, un modèle exécuté avec son propre scaffolding intact, et une note attribuée par un lecteur senior plutôt que par un autre modèle. La méthode est délibérément étroite, et honnête sur ses limites.

Comment la banque de tests est construite

La banque est rédigée par un praticien. Elle n'est ni générée par LLM ni issue du crowdsourcing. Les items sont ancrés dans les conventions structurelles de référence comptabilité d'acquisition, pricing sans arbitrage, classification IFRS 9, mécanique des covenants et validés au regard des traitements de référence du monde réel.

Chaque item existe pour sonder un mode de défaillance précis et nommé dans la taxonomie. La taxonomie est le visage public de la banque ; les items eux-mêmes restent privés.

Comment un modèle y est confronté

Le diagnostic exécute votre modèle déployé ou un sous-ensemble ciblé de celui-ci avec votre prompt scaffolding préservé. Il n'y a aucun ré-engineering du prompt de mon côté. La banque est la constante ; votre produit est la variable.

C'est essentiel : l'objectif est de découvrir comment votre système se comporte tel qu'il est livré, et non comment un prompt plus propre se comporterait en laboratoire.

Comment les réponses sont notées

La notation est une notation structurelle de praticien senior. Un LLM-as-judge n'est utilisé que comme pré-filtre pour les items d'arithmétique et d'extraction exacte jamais pour un verdict structurel final.

Un juge de leaderboard à température zéro passe bien à l'échelle, mais il ne peut pas porter le jugement structurel senior selon lequel un modèle a traité une liquidation preference et une conversion value comme additives plutôt que comme le plus élevé des deux. Ce jugement est le produit.

À quoi ressemble un livrable

Un rapport : un résumé exécutif, une liste de constats par sous-domaine, une priorisation pondérée par gravité, et une remédiation formulée comme des cas de test que vous pouvez intégrer à votre propre suite de régression interne.

Les constats sont typés et notés. Rien dans le livrable n'est un verdict en boîte noire ; chaque constat énonce le mécanisme et le traitement correct afin que votre équipe puisse le vérifier de façon indépendante.

La typologie des modes de défaillance

Chaque constat porte un type.

Structural

Le mauvais cadre, appliqué avec assurance

Le modèle utilise une méthode cohérente mais inadaptée au cas. Un yield to maturity là où une recovery PV est requise.

Arithmetic

Un faux pas de calcul ou de convention

Le cadre est correct ; le calcul ou le signe ne l'est pas. Mettre à l'échelle une VaR quotidienne par 252 plutôt que par sa racine carrée.

Hallucination

Un fait affirmé sans fondement

Un chiffre, un terme ou un traitement inventé pour coller. Des synergies de revenus comptabilisées que le plan autonome inclut déjà.

Disclosure

Une omission matérielle ou un jugement non signalé

Un traitement défendable mais laissé tacite là où il change la réponse. Des intérêts classés en operating sous un cadre, en financing sous un autre, sans note.

La grille de gravité

Et une gravité, calibrée sur la conséquence.

Critical

Fausserait matériellement un livrable qu'un praticien senior signe. L'erreur survit à une revue ordinaire et change une décision.

Material

Nécessiterait une reprise. Assez fausse pour compter, assez visible pour qu'une seconde lecture attentive la détecte.

Minor

Serait détectée en revue. Un faux pas qu'un vérificateur compétent supprime avant que le travail ne quitte le bureau.

Observation

Dérive de style ou de convention, non une erreur. Notée par souci d'exhaustivité ; aucune action induite.

La relation en couches

Les plateformes d'évaluation horizontales répondent à ce que le modèle a obtenu comme score. Les diagnostics de praticien répondent à comment il a échoué.

Ce que ce diagnostic n'est pas

Ce n'est pas une évaluation de conformité réglementaire. Ce n'est pas une validation de model-risk au titre de SR 11-7 ou de tout cadre analogue. Ce n'est pas un benchmark public.

C'est un catalogue d'erreurs structurelles, circonscrit à la surface déployée d'un client utile comme intrant au travail d'une équipe de validation, jamais un substitut à celui-ci.

Les constats d'exemple présentés où que ce soit sur ce site sont des reconstitutions illustratives, pas de vrais travaux client, pas de vrais prompts, et pas de vraies traces de modèle. Aucun système client n'est classé, nommé ou divulgué.