26 lettres, 26 animaux → 24 animaux, 1 doublon, 1 lama "Zèbre". Pourquoi l’IA décroche ?

Pourquoi les IA peinent à dessiner correctement plus de cinq ou six sujets

Les IA génératives, et en particulier les modèles texte-vers-image (basés sur les transfomers ou la diffusion), produisent aujourd’hui des images très convaincantes. Pourtant, dès qu’on leur demande une scène avec beaucoup d’éléments similaires – un abécédaire avec 26 lettres et 26 animaux, par exemple –, l’image « décroche » presque toujours : un sujet manque, deux se fusionnent, une silhouette se déforme, et les mots (quand il y en a) deviennent farfelus.

Ce phénomène n’est pas un détail. Il illustre une limite structurelle : à partir de quelques instances, l’alignement texte-image cesse d’être une simple question de rendu et devient un problème de contraintes (compter, distinguer, maintenir des identités d’objets) que le modèle n’est pas naturellement équipé pour satisfaire.

« Si l’IA comprend le texte, pourquoi elle ne respecte pas le nombre ? »

Parce que « comprendre » ne signifie pas « appliquer une règle ». Un modèle texte-vers-image apprend une distribution : il génère une image probable conditionnée par un texte. Il n’exécute pas un programme qui vérifie ensuite : « il y a exactement N objets ».

Cette faiblesse est visible depuis des benchmarks conçus pour « forcer » le comptage. DrawBench, introduit avec Imagen, propose par exemple une catégorie dédiée (« counting ») avec des consignes du type « One car on the street » jusqu’à « Five cars on the street ». L’intérêt du benchmark est précisément de rendre ces échecs comparables et difficiles à ignorer.
Le glissement commence tôt : à 4, certains benchmarks passent déjà le témoin au niveau « moyen » ; au-delà de 10, on s’aventure sur un terrain miné où l’erreur devient sinon la règle du moins trop fréquente.

Donc il y a un seuil magique à 5 ou 6 sujets ?

Non, il n’y a pas de seuil mystique. En revanche, la difficulté augmente très vite, et de manière non linéaire. On observe cependant que jusqu’à 4 ou 5 on est en général « safe ». Vous pouvez donc dessiner les trois petits cochons sans problème mais pas forcément les 7 samouraïs et encore moins les 101 dalmatiens.

Chaque sujet supplémentaire ajoute des contraintes de place, de perspective, d’éclairage et d’occlusion. Et quand les instances se ressemblent (« six chats »), un second problème apparaît : l’identité. Le modèle doit produire plusieurs objets du même type, sans les confondre, tout en stabilisant leurs frontières. À partir de là, de petites erreurs deviennent fréquentes… et immédiatement visibles.

mais un super prompt va régler ça, non ?

Pas de façon fiable. Une étude récente en 2025 a justement pris le problème au sérieux, en isolant la compétence « compter » dans un benchmark dédié (T2ICountBench source plus bas). Leur conclusion est nette : les modèles de diffusion échouent systématiquement à produire le nombre exact, et la précision chute à mesure que le nombre demandé augmente ; surtout, le raffinement de prompt n’améliore pas, de manière générale, cette capacité de comptage.

Autrement dit : on peut parfois « bricoler » un cas particulier, mais on ne transforme pas une faiblesse structurelle en garantie de conformité par la seule rhétorique.

Pire ! Certaines techniques de prompt complexes (comme demander à l’IA de décomposer le calcul ou de placer les objets sur une grille) peuvent dégrader la performance au lieu de l’améliorer. Par exemple, diviser une consigne en sous-tâches spatiales fait chuter la précision moyenne de plus de 40 % (T2ICountBench).

« Donc le problème vient d’un manque de puissance ? »

La puissance améliore la qualité visuelle, mais elle ne transforme pas le modèle en moteur de contraintes. Le comptage ressemble moins à un problème de « beau rendu » qu’à un problème de contrôle : vous pouvez obtenir une image plus nette… et rester bloqué avec cinq chiens au lieu de six. Tant que l’objectif du modèle reste la plausibilité globale et l’alignement moyen, il n’a aucune raison interne de satisfaire une condition exacte à tout prix.
L’IA a appris que « plusieurs chiens » est une scène probable, donc pour l’IA on ne se soucie pas de savoir s’il y en a exactement cinq ou six, car son objectif est la plausibilité visuelle, pas la rigueur mathématique. Si vous voulez faire des calculs on le sait Excel est bien plus précis qu’une IA générative.

Qu’est-ce qui, dans la diffusion, rend le comptage si difficile ?

Un modèle de diffusion ne « pose » pas les objets un par un. Il part d’un bruit, puis le débruite en étapes. Très tôt, une composition globale émerge ; ensuite, les détails se stabilisent. Or, par défaut, il n’existe pas de « slot » explicite par objet qui garantirait une identité stable et séparée pour chaque instance.

C’est précisément le point de départ de travaux CVPR 2025 : ils cherchent des signaux internes d’« objectness » (la capacité à représenter des entités séparées), puis utilisent ces signaux pour détecter pendant la génération s’il manque des instances ou s’il y en a trop, et guider l’inférence en conséquence. Dans Make It Count, l’approche (CountGen) identifie des caractéristiques d’instance dans SDXL, corrige le layout qui émerge, puis applique une optimisation à l’inférence pour améliorer la conformité au nombre.

« Pourquoi les sujets identiques posent plus de problèmes ? »

Parce que la demande est symétrique. « Six chats » décrit six fois la même chose. Le modèle doit casser cette symétrie tout seul : décider où commencent et où finissent les six silhouettes, sans indices distinctifs.
Ajoutez un canapé, des recouvrements, des pattes qui se superposent, et les frontières entre instances deviennent ambiguës. Le modèle « réutilise » alors des morceaux, fusionne deux instances en une seule, ou sacrifie un sujet pour préserver une scène « propre ».
On est loin d’une image d’un unique élément sur fond blanc. Si on reste dans un environnement simple (maison) on peut avoir 42% de précision mais si on passe dans un environnement plus complexe (ville) le taux chute à 21% ! Voir Cao, Y., et al. (2025).

« Quand l’IA “oublie” un sujet, c’est un bug aléatoire ? »

C’est plutôt un compromis probabiliste. Si ajouter un objet supplémentaire risque de dégrader la cohérence globale (chevauchement, déformation, artefacts), le modèle peut converger vers une solution plus stable visuellement… mais incorrecte sur le nombre. Le nom de la girafe disparait de l’abécédaire par exemple. On parle de « sacrifice de l’objet ». Mais c’est un choix entre deux écueils : l’IA préfère une image visuellement plausible mais numériquement erronée à l’inverse.

C’est aussi ce qui rend ces erreurs frustrantes : elles sont triviales à détecter pour un humain, et elles surviennent même sur des scènes conceptuellement simples.

« Est-ce que la recherche progresse réellement sur le comptage ? »

Oui, et c’est une bonne nouvelle… mais les résultats confirment la difficulté.

Dans Make It Count (CVPR 2025), les auteurs rapportent par exemple une amélioration de la précision de comptage sur des prompts numériques issus de T2I-CompBench : 29 % pour SDXL contre 48 % avec CountGen, via évaluation humaine. Ils introduisent aussi CoCoCount (un ensemble de prompts basé sur des classes COCO, évaluable automatiquement avec des détecteurs) et indiquent un gain de 26 % à 52 % dans leur configuration. Donc cela progresse.

En parallèle, d’autres approches cherchent à « fermer la boucle » avec des signaux externes : optimisation par détecteurs et pertes de comptage, méthodes itératives et réutilisables d’un prompt à l’autre, etc.

Le message implicite est clair : la solution passe moins par « mieux décrire » que par « mieux contraindre ».

« Que faire, concrètement, si je veux 12, 20 ou 30 sujets ? »

Il faut changer de stratégie, pas seulement de formulation :

Décomposer : générer une scène stable avec 4 à 6 sujets. Puis une autre avec 4 à 6 autres éléments. Et ensuite on peut, Nanobana le fait bien fusionner les images. Sinon comme avant l’IA on bidouille un peu l’échelle et on peut assembler sans être expert de Photoshop les images pour en faire une vue complète.
Désymétriser : si vous restez dans un nombre raisonnable, essayer d’attribuer des variations (couleurs, accessoires, poses, positions) afin d’aider l’IA à distinguer des instances pourtant similaires ;

En conclusion

Les modèles de génération d’images à partir de texte échouent souvent dès qu’il faut gérer plus de quelques éléments, surtout s’ils se ressemblent, car compter précisément demande un contrôle explicite que l’entraînement standard apporte rarement. Des benchmarks comme DrawBench ont rendu ces limites visibles, et des évaluations dédiées confirment que la précision chute rapidement quand le nombre demandé augmente, sans que le « prompt engineering » ne constitue un correctif robuste.

Les approches récentes convergent vers une idée simple : pour obtenir « exactement N », il faut introduire des mécanismes de contrainte (layout, détection en cours de génération, optimisation à l’inférence) plutôt que d’espérer qu’une description plus insistante se transforme, par magie, en garantie.

Vous êtes curieux ? Allez donc lire ces papiers…

Saharia, C., et al. (2022). Photorealistic text-to-image diffusion models with deep language understanding (introduit DrawBench, dont une catégorie « counting »). https://arxiv.org/pdf/2205.11487
Cao, Y., et al. (2025). Text-to-image diffusion models cannot count, and prompt refinement cannot help (T2ICountBench, et analyse du non-effet du raffinement de prompts https://arxiv.org/abs/2503.06884
Binyamin, L., et al. (2025). Make it count: text-to-image generation with an accurate number of objects (CountGen, CoCoCount, correction de layout et optimisation à l’inférence). https://openaccess.thecvf.com/content/CVPR2025/papers/Binyamin_Make_It_Count_Text-to-Image_Generation_with_an_Accurate_Number_of_CVPR_2025_paper.pdf
Zhang, L., Rao, A., Agrawala, M. (2023). Adding conditional control to text-to-image diffusion models (ControlNet, contrôle spatial). https://arxiv.org/abs/2302.05543
Li, Y., et al. (2023). GLIGEN: open-set grounded text-to-image generation (génération « ancrée » via boîtes et conditions spatiales). https://arxiv.org/abs/2301.07093
Zheng, C., et al. (2023). LayoutDiffusion: controllable diffusion model for layout-to-image generation (contrôle explicite du layout multi-objets).
https://arxiv.org/abs/2303.17189
Zafar, O., et al. (2024). Detection-driven object count optimization for text-to-image diffusion models (boucle d’optimisation guidée par détection).
https://arxiv.org/abs/2408.11721
Huang, K., et al. (2023). T2I-CompBench: a comprehensive benchmark for open-world compositional text-to-image generation (compositionalité, prompts complexes, et base d’évaluation utilisée par CountGen). https://proceedings.neurips.cc/paper_files/paper/2023/file/f8ad010cdd9143dbb0e9308c093aff24-Paper-Datasets_and_Benchmarks.pdf

26 lettres, 26 animaux → 24 animaux, 1 doublon, 1 lama « Zèbre ». Pourquoi l’IA décroche ?