Quand les IA brillent... sur papier
À chaque sortie d’un nouveau modèle de langage (LLM), une mécanique bien rodée se met en marche. Les équipes techniques publient des résultats — souvent spectaculaires — sur une série de benchmarks standardisés. Ces derniers, aux noms parfois ésotériques comme MMLU, Big-Bench ou HellaSwag, sont censés mesurer les compétences d’un modèle : compréhension du langage, logique, culture générale, etc. Un score élevé devient alors un argument commercial et médiatique, servant à « prouver » que ce nouveau modèle est “le meilleur jamais conçu”.
Mais que valent réellement ces scores ? Peuvent-ils prédire la performance d’un modèle dans un cas d’usage concret, comme répondre à un client, résumer un rapport ou assister un médecin ? Et surtout : les modèles optimisés pour ces tests brillent-ils toujours dans la vie réelle ?
C’est précisément la question que pose cet article. Car l’histoire récente d’autres secteurs — comme l’automobile ou l’aérien — montre que la focalisation excessive sur un indicateur unique peut avoir des effets pervers. Entre stratégie de “gaming”, triche réglementaire et déception utilisateur, il n’y a souvent qu’un pas. Et ce pas, certains l’ont déjà franchi.
Dieselgate : quand l’indicateur supplante la réalité
En septembre 2015, l’Agence américaine de protection de l’environnement révèle que Volkswagen a installé des logiciels capables de détecter les cycles d’homologation, n’activant les filtres à NOₓ qu’en laboratoire. En usage réel, les émissions pouvaient excéder de 40 fois les limites légales (EPA, 2015). Le scandale coûtera à Volkswagen plus de 33 milliards de dollars. En mai 2025, quatre cadres supplémentaires sont condamnés (The Guardian, 2025) et, le 30 juillet 2025, la justice néerlandaise sanctionne Stellantis pour des pratiques similaires remontant à 2009 (Reuters, 2025).
Mais l’affaire ne se limite pas aux oxydes d’azote. Les consommations officielles ont elles aussi été optimisées au détriment de la réalité :
Indicateur | Constat | Source |
Écart moyen 2018-2022 entre consommation WLTP et usage réel | 8 % → 14 % (+80 %) | ICCT, 2024 |
Données OBFCM (600 000 véhicules, millésime 2021) | +18 % diesel, +24 % essence | Commission européenne, 2024 |
Stratégies de manipulation WLTP (désactivation stop-&-start, batteries déchargées, etc.) | Réduction potentielle de moitié des ambitions CO₂ 2025 | T&E, 2018 |
L’effet pervers du KPI unique
Dans tous les cas, la stratégie repose sur un mécanisme identique : un indicateur unique, utilisé à des fins réglementaires ou marketing, finit par structurer les comportements industriels. Le calibrage des moteurs, les réglages logiciels, voire les logiciels de triche complets, visent à satisfaire le test – et non l’usage réel. Résultat : le consommateur découvre un écart de performance à peine sorti du garage. Et le pire c’est que des études existent pour confirmer notre expérience personnelle mais que les fiches des constructeurs affichent toujours des chiffres totalement décalés de la réalité.
L’analogie avec le transport aérien est également éclairante : avez-vous observé qu’à l’aéroport on voit souvent deux ou trois bagages arriver très vite sur le tapis de notre vol et puis ensuite plus rien pendant un quart d’heure ?
C’est que certains services de bagages se concentrent sur le KPI « premier bagage livré en moins de dix minutes », quitte à précipiter deux valises d’équipage sur le tapis et à laisser patienter ensuite l’ensemble des passagers. Lorsque les premières valises arrivent sur le tapis le reste des bagages est encore dans la soute.
Et l'IA dans tout cela ?
Secteur | KPI suivi | Stratégie de contournement | Effet pour l’utilisateur |
Bagages | 1ᵉʳ bagage < 10 min | Dépôt prioritaire d’équipage | Attente prolongée des passagers |
Automobile | Cycle WLTP / CO₂ (g/km) | Réglages spécifiques test | Surconsommation en conditions réelles |
Intelligence artificielle | Scores MMLU, Big-Bench | Fine-tuning sur les corpus de test | Réponses dégradées hors benchmark |
Risques et implications
Les dérives des KPI mal conçus engendrent des impacts multiples :
- Économiques : une surconsommation d’essence de +1 à 2 L/100 km représente 150 à 300 € supplémentaires par an sur 15 000 km.
- Technologiques : la répétition des scandales (Volkswagen, Stellantis, Renault, Mercedes) mine la crédibilité de l’innovation.
- Climatiques : un écart moyen de 14 % de consommation est constaté à l’échelle européenne ce qui compromet l’essentiel des gains escomptés des normes 2025-2030.
Conclusion : un BenchIAgate demain ?
Le Dieselgate rappelle une vérité inconfortable : un test, même validé réglementairement, peut être vidé de son sens si les acteurs disposent de moyens techniques pour le maximiser sans améliorer la réalité terrain. Le KPI devient alors un artefact de conformité, non un reflet de qualité.
Face aux illusions des benchmarks IA, des KPI bagages ou des cycles CO₂, il serait salutaire de revenir à des indicateurs résilients — aléatoires, pluriels, ancrés dans l’usage. À défaut, nous pourrions bientôt découvrir notre propre BenchIAgate.
Et concrètement au quotidien cela doit nous pousser à une chose : ne pas nous focaliser sur les benchmarks et la communication « push » lors des lancements de nouveaux modèles d’IA. A la place passer un peu plus de de temps à travailler la qualité de sa data ou à former les utilisateurs à mieux utiliser l’IA.