Comment se déroule un diagnostic, et ce qu'il n'est pas.
Une banque de tests rédigée par un praticien, un modèle exécuté avec son propre scaffolding intact, et une note attribuée par un lecteur senior plutôt que par un autre modèle. La méthode est délibérément étroite, et honnête sur ses limites.
Comment la banque de tests est construite
La banque est rédigée par un praticien. Elle n'est ni générée par LLM ni issue du crowdsourcing. Les items sont ancrés dans les conventions structurelles de référence comptabilité d'acquisition, pricing sans arbitrage, classification IFRS 9, mécanique des covenants et validés au regard des traitements de référence du monde réel.
Chaque item existe pour sonder un mode de défaillance précis et nommé dans la taxonomie. La taxonomie est le visage public de la banque ; les items eux-mêmes restent privés.
Comment un modèle y est confronté
Le diagnostic exécute votre modèle déployé ou un sous-ensemble ciblé de celui-ci avec votre prompt scaffolding préservé. Il n'y a aucun ré-engineering du prompt de mon côté. La banque est la constante ; votre produit est la variable.
C'est essentiel : l'objectif est de découvrir comment votre système se comporte tel qu'il est livré, et non comment un prompt plus propre se comporterait en laboratoire.
Comment les réponses sont notées
La notation est une notation structurelle de praticien senior. Un LLM-as-judge n'est utilisé que comme pré-filtre pour les items d'arithmétique et d'extraction exacte jamais pour un verdict structurel final.
Un juge de leaderboard à température zéro passe bien à l'échelle, mais il ne peut pas porter le jugement structurel senior selon lequel un modèle a traité une liquidation preference et une conversion value comme additives plutôt que comme le plus élevé des deux. Ce jugement est le produit.
À quoi ressemble un livrable
Un rapport : un résumé exécutif, une liste de constats par sous-domaine, une priorisation pondérée par gravité, et une remédiation formulée comme des cas de test que vous pouvez intégrer à votre propre suite de régression interne.
Les constats sont typés et notés. Rien dans le livrable n'est un verdict en boîte noire ; chaque constat énonce le mécanisme et le traitement correct afin que votre équipe puisse le vérifier de façon indépendante.
Chaque constat porte un type.
Le mauvais cadre, appliqué avec assurance
Le modèle utilise une méthode cohérente mais inadaptée au cas. Un yield to maturity là où une recovery PV est requise.
Un faux pas de calcul ou de convention
Le cadre est correct ; le calcul ou le signe ne l'est pas. Mettre à l'échelle une VaR quotidienne par 252 plutôt que par sa racine carrée.
Un fait affirmé sans fondement
Un chiffre, un terme ou un traitement inventé pour coller. Des synergies de revenus comptabilisées que le plan autonome inclut déjà.
Une omission matérielle ou un jugement non signalé
Un traitement défendable mais laissé tacite là où il change la réponse. Des intérêts classés en operating sous un cadre, en financing sous un autre, sans note.
Et une gravité, calibrée sur la conséquence.
Fausserait matériellement un livrable qu'un praticien senior signe. L'erreur survit à une revue ordinaire et change une décision.
Nécessiterait une reprise. Assez fausse pour compter, assez visible pour qu'une seconde lecture attentive la détecte.
Serait détectée en revue. Un faux pas qu'un vérificateur compétent supprime avant que le travail ne quitte le bureau.
Dérive de style ou de convention, non une erreur. Notée par souci d'exhaustivité ; aucune action induite.
Les plateformes d'évaluation horizontales répondent à ce que le modèle a obtenu comme score. Les diagnostics de praticien répondent à comment il a échoué.
Ce n'est pas une évaluation de conformité réglementaire. Ce n'est pas une validation de model-risk au titre de SR 11-7 ou de tout cadre analogue. Ce n'est pas un benchmark public.
C'est un catalogue d'erreurs structurelles, circonscrit à la surface déployée d'un client utile comme intrant au travail d'une équipe de validation, jamais un substitut à celui-ci.
Les constats d'exemple présentés où que ce soit sur ce site sont des reconstitutions illustratives, pas de vrais travaux client, pas de vrais prompts, et pas de vraies traces de modèle. Aucun système client n'est classé, nommé ou divulgué.