Derrière le G de ChatGPT : distinguer le génératif de ce qui ne l'est pas

En formation, je consacre toujours quelques minutes au sigle ChatGPT. Je le décompose lettre à lettre : G pour Generative, P pour Pre-trained, T pour Transformer. À chaque fois ou presque, la même réaction parcourt la salle : « ah bon, c’est ça que ça veut dire ? ». Les professionnels qui utilisent l’outil quotidiennement n’ont pour la plupart jamais déplié l’acronyme. Or chacune des trois lettres porte une décision technique structurante.

Quand on dit « IA générative », on pose implicitement une opposition. Si l’on a senti le besoin de qualifier ces nouvelles IA de « génératives », c’est qu’il en existe d’autres qui ne le sont pas. Et celles-là ne sont ni mortes, ni dépassées. Elles font tourner une grande partie de l’économie numérique depuis trente ans.

Un demi-siècle d’IA avant la vague générative

L’intelligence artificielle n’est pas née en novembre 2022 avec ChatGPT. Le terme apparaît en 1956 lors de la conférence de Dartmouth, où un groupe de chercheurs américains pose les bases d’un nouveau domaine scientifique.

Pendant près de soixante-dix ans, l’IA s’est développée selon plusieurs courants successifs, chacun avec ses méthodes propres et ses domaines d’application.

Ces approches partagent un point commun : elles automatisent des tâches considérées comme exigeant de l’intelligence (raisonner, reconnaître, classer, décider, planifier). Mais aucune ne produit de contenu original au sens où le font les modèles génératifs actuels. Elles répondent à des questions, prennent des décisions, identifient des objets ou recommandent des actions, sans jamais « créer » de texte ou d’image.

Trois grandes familles méritent d’être rappelées.

D’abord, l’IA symbolique et les systèmes experts, dominants des années 1960 aux années 1980. L’idée est de représenter la connaissance humaine sous forme de règles logiques explicites, formulées par des spécialistes, et de laisser un moteur d’inférence en tirer des conclusions. MYCIN, développé à Stanford dans les années 1970, aidait au diagnostic des infections bactériennes à partir de plusieurs centaines de règles cliniques. Limite structurelle : ces systèmes dépendent entièrement de la qualité des règles fournies et ne savent pas apprendre par eux-mêmes.

Ensuite, l’apprentissage automatique classique (machine learning), à partir des années 1990. Plutôt que d’écrire des règles à la main, on fournit à un algorithme un grand nombre d’exemples étiquetés et on le laisse identifier les régularités statistiques. Régression logistique, arbres de décision, forêts aléatoires, machines à vecteurs de support : ces techniques restent omniprésentes dans l’industrie. Elles équipent les systèmes de scoring bancaire, la détection de fraude, la maintenance prédictive, le ciblage publicitaire, la tarification dynamique.

Enfin, l’apprentissage profond appliqué à la reconnaissance, dans les années 2010. La date symbolique est 2012, année où un réseau de neurones nommé AlexNet écrase la concurrence au concours ImageNet sur une tâche de reconnaissance d’images. Ce réseau est conçu par trois chercheurs de l’université de Toronto : Alex Krizhevsky, Ilya Sutskever et leur directeur de thèse Geoffrey Hinton. Le nom de Sutskever mérite d’être retenu. Trois ans plus tard, il cofonde OpenAI avec Sam Altman, Elon Musk et quelques autres, et devient son chief scientist. Il y dirige les travaux qui mèneront à la série des modèles GPT. Il quitte OpenAI en mai 2024 et fonde dans la foulée Safe Superintelligence. Une seule trajectoire individuelle, qui va d’AlexNet à GPT et au-delà, raconte le passage d’une IA de reconnaissance à une IA générative.

À partir d’AlexNet, l’apprentissage profond s’impose pour la vision par ordinateur, la reconnaissance vocale, la traduction automatique. Mais le réseau qui reconnaît un chat sur une photo ne sait pas dessiner un chat. Chaque modèle est entraîné pour une tâche spécifique.

Deep Blue et AlphaGo, deux jalons, deux paradigmes

Pour ancrer cette histoire, j’utilise souvent en formation deux exemples que tout le monde a entendu au moins une fois : Deep Blue contre Garry Kasparov en 1996-1997, et AlphaGo contre Lee Sedol en 2016. Ils racontent deux paradigmes très différents de l’IA, et la comparaison vaut le détour.

Commençons par Deep Blue, et par un clin d’œil à la personnalité de Garry Kasparov. Le champion d’échecs russe, alors meilleur joueur du monde, avait affirmé qu’aucune machine ne le battrait jamais. La réalité a été plus subtile que la légende. En février 1996, à Philadelphie, c’est Kasparov qui gagne le premier match contre Deep Blue, 4 à 2. Le champion remporte au passage 400 000 dollars sur une dotation totale de 500 000.

C’est l’année suivante, en mai 1997, qu’IBM prend sa revanche dans le rematch organisé à New York, Deep Blue gagnant 3½ à 2½. La machine bat le champion à la loyale, dans le format standard du tournoi. C’est cette victoire-là qui marque l’histoire.

Deep Blue ne ressemble en rien à ChatGPT. C’est une machine d’IBM combinant une puissance de calcul considérable pour l’époque (environ 200 millions de positions évaluées par seconde) et des heuristiques d’évaluation conçues par des grands maîtres humains. Il ne « comprend » pas les échecs au sens où nous l’entendons. Il explore des millions de positions, en élague la grande majorité grâce à des règles précises programmées en amont, et choisit le coup le mieux évalué. C’est la philosophie de l’IA d’alors : faire mieux que l’humain dans un cadre fermé, en exploitant la vitesse de calcul brute et en injectant l’expertise humaine sous forme de règles.

Vingt ans plus tard, en mars 2016, c’est au tour du jeu de Go de tomber. AlphaGo, développé par DeepMind (filiale d’Alphabet), bat Lee Sedol, l’un des meilleurs joueurs de Go au monde, 4 à 1 lors d’un match en cinq parties à Séoul. Lee Sedol, moins porté que Kasparov sur la rhétorique guerrière, a reconnu sa défaite avec sobriété.

Mais ce qui rend AlphaGo si différent, ce n’est pas seulement le résultat sportif. C’est la méthode. Dans l’inconscient collectif, qui bat le champion du monde d’échecs ou de Go est forcément intelligent ; ces deux jeux représentent depuis longtemps la pointe de l’intelligence stratégique humaine. Avec Deep Blue, l’intelligence était essentiellement celle de ses concepteurs, encodée à la main dans la machine. Avec AlphaGo, l’approche bascule. On met en place des réseaux de neurones et des algorithmes d’apprentissage, on entraîne d’abord le système sur des parties de joueurs humains, puis on le laisse jouer des millions de parties contre lui-même. Par apprentissage par renforcement, il améliore tout seul sa qualité de jeu, sans qu’aucune règle stratégique fine ait été codée explicitement. DeepMind résume la mécanique en deux mots : deep neural networks et reinforcement learning.

Une autre manière, donc, d’arriver au résultat. Deep Blue codait l’expertise, AlphaGo l’apprend. Cette bascule méthodologique – du symbolique vers le statistique, des règles vers l’apprentissage – est la même qui, quelques années plus tard, rendra possibles les modèles génératifs.

Une chose toutefois reste commune à Deep Blue, AlphaGo et leurs descendants directs. Aucune de ces IA ne génère de contenu nouveau. Toutes répondent à une question précise dans un univers délimité : quel coup jouer dans cette position ? Quand un participant me dit « j’ai vu Deep Blue battre Kasparov il y a vingt-cinq ans, ça doit faire des choses incroyables aujourd’hui », je rappelle que Deep Blue, AlphaGo et ChatGPT n’appartiennent pas à la même famille d’IA. Ils résolvent des problèmes différents avec des méthodes différentes.

Ce que signifie « génératif »

L’IA générative se distingue par un changement d’objectif. Au lieu de classer un élément existant ou de prédire une valeur, elle produit elle-même un nouvel élément : un texte, une image, un son, une vidéo, du code informatique. Le résultat n’existait pas avant qu’elle ne le crée.

Techniquement, un modèle génératif apprend la distribution statistique des données d’entraînement, puis sait en tirer de nouveaux échantillons cohérents avec cette distribution. Un modèle entraîné sur des milliards de textes apprend les régularités de la langue, et peut produire de nouveaux textes qui les respectent. Cette logique prolonge directement les intuitions de Shannon évoquées dans le premier article de cette série.

Ce changement d’objectif a deux conséquences majeures.

D’abord, la polyvalence. Un même modèle peut traiter une grande variété de tâches sans avoir été entraîné spécifiquement pour chacune. Résumer, traduire, rédiger un courriel, expliquer un concept, écrire du code : autant d’usages possibles à partir d’un modèle unique. Les IA traditionnelles étaient conçues pour une tâche à la fois.

Ensuite, l’interaction en langage naturel. La sortie est lisible directement par un humain. Là où un modèle de classification renvoyait un code de catégorie ou un score numérique, un modèle génératif renvoie une phrase, un paragraphe, un raisonnement. Cette accessibilité explique l’adoption rapide par le grand public.

Pourquoi cette distinction compte pour qui pilote un déploiement d’IA

Voici le passage de la formation où je vois le plus souvent les managers prendre des notes.

Il serait erroné de penser que les IA génératives ont remplacé les IA traditionnelles. Les deux familles coexistent et répondent à des besoins différents. Une banque qui détecte une fraude carte bancaire utilise toujours un modèle de classification supervisée, entraîné sur des millions de transactions étiquetées. Une usine qui anticipe la panne d’une machine utilise un modèle de régression sur des données de capteurs. Un opérateur télécom qui prédit la résiliation d’un abonné utilise un modèle de scoring. Aucun de ces cas n’exige de génération de texte ou d’image. Les modèles traditionnels y sont plus rapides, moins coûteux, plus explicables et souvent plus précis.

Quatre implications pratiques en découlent pour qui pilote des usages d’IA.

D’abord, ne pas confondre les outils. Le choix d’une IA générative pour un problème de classification ou de prédiction est presque toujours une mauvaise décision technique et économique. Le bon réflexe consiste à se demander : ai-je besoin de classer, de prédire une valeur, de détecter une anomalie ? Ou ai-je besoin de produire du contenu nouveau ?

Ensuite, ne pas dévaloriser l’existant. Les modèles traditionnels qui font tourner la détection de fraude, la maintenance prédictive ou le scoring de risque constituent un actif technologique mature, éprouvé et conforme. Les remplacer par des IA génératives au nom de la modernité serait dans la plupart des cas une régression.

Enfin, penser la combinaison. Les architectures les plus efficaces aujourd’hui combinent les deux mondes. Un outil de détection de fraude moderne peut utiliser un modèle classique pour le scoring, et un modèle génératif pour expliquer en langage naturel les raisons d’un signalement à un opérateur humain. Le génératif n’écrase pas le classique : il l’enrichit, à l’interface avec l’humain.

Et surtout, ne jamais partir de l’outil. C’est le point que j’insiste le plus en formation, et celui qui change le plus de choses dans la suite. Beaucoup d’organisations cherchent aujourd’hui des « cas d’usage pour ChatGPT ». La démarche est inversée. On ne part pas de l’outil pour chercher où le caser. On part de l’irritant métier – un processus lent, une décision fragile, un volume documentaire ingérable, une tâche pénible et répétitive – et on évalue ensuite quelle solution technique est la plus adaptée. Parfois c’est une IA générative. Parfois c’est un modèle de classification supervisée. Parfois c’est une simple automatisation sans IA. Parfois c’est une refonte de processus qui ne demande aucune technologie nouvelle.

Le test du terrain est sans appel. En atelier d’idéation, les équipes proposent souvent des dizaines de bonnes idées en quelques heures. Après un peu d’analyse et d’échange, on se retrouve régulièrement avec une majorité de bonnes idées qui n’ont absolument pas besoin d’une IA générative pour aboutir. Certaines relèvent d’un modèle classique. D’autres d’un script. D’autres d’une simple révision organisationnelle. Et certaines, bien sûr, justifient effectivement une IA générative, là où la production de contenu nouveau ou l’interaction en langage naturel apporte une vraie valeur. C’est cette discipline du diagnostic préalable qui distingue une trajectoire IA mature d’un empilement d’expérimentations sans suite.

Conclusion

Le G de ChatGPT renvoie donc à une famille bien précise d’intelligences artificielles, celles qui produisent du contenu nouveau plutôt que de répondre à une question fermée. Cette famille s’inscrit dans une longue histoire qui comprend les systèmes experts, l’apprentissage automatique classique, l’apprentissage profond appliqué à la reconnaissance, et des démonstrations comme Deep Blue ou AlphaGo. Comprendre cette distinction est essentielle pour les décideurs qui pilotent une trajectoire IA : ne pas confondre une vague médiatique avec un remplacement technologique, et garder la bonne discipline. On part du besoin, jamais de l’outil.

Le prochain article s’attaquera au P de GPT, pour Pre-trained. Là encore, derrière un mot anodin se cache une décision technique majeure, qui explique en partie pourquoi ces modèles ont changé d’échelle.

Cet article s’appuie sur une idée originale personnelle et a été élaboré avec l’aide d’une IA générative pour la recherche d’information et la structuration du texte ; je conserve la main sur l’analyse, la sélection des contenus et j’assure la relecture finale.

Sources

Dartmouth College. Artificial Intelligence (AI) Coined at Dartmouth. https://home.dartmouth.edu/about/artificial-intelligence-ai-coined-dartmouth

IBM. Deep Blue. IBM History. https://www.ibm.com/history/deep-blue

Wikipédia. Deep Blue versus Garry Kasparov. https://en.wikipedia.org/wiki/Deep_Blue_versus_Garry_Kasparov

DeepMind. AlphaGo. https://deepmind.google/research/alphago/

Wikipédia. Ilya Sutskever. https://fr.wikipedia.org/wiki/Ilya_Sutskever

FAQ

Que signifie l’acronyme ChatGPT ?

ChatGPT signifie « Chat Generative Pre-trained Transformer ». Le mot Chat renvoie à l’interface conversationnelle. Les trois lettres GPT désignent l’architecture sous-jacente : Generative (modèle qui produit du contenu nouveau), Pre-trained (préentraîné sur de très grands corpus avant tout usage) et Transformer (type d’architecture neuronale introduit en 2017).

Que veut dire « génératif » dans IA générative ?

Cela désigne une famille d’IA qui produisent elles-mêmes un contenu nouveau (texte, image, son, vidéo, code) plutôt que de classer, prédire ou détecter à partir d’éléments existants. Techniquement, ces modèles apprennent la distribution statistique de leurs données d’entraînement et savent en tirer de nouveaux échantillons cohérents.

Les IA non génératives sont-elles devenues obsolètes ?

Non, au contraire. Les modèles de classification, de régression, de scoring ou de détection d’anomalies équipent toujours la détection de fraude bancaire, la maintenance prédictive industrielle, le filtrage du spam, le ciblage publicitaire et bien d’autres usages. Ils sont souvent plus rapides, moins coûteux, plus explicables et plus précis que des modèles génératifs sur ces tâches.

Faut-il choisir entre IA traditionnelle et IA générative ?

Pas nécessairement. Les architectures les plus efficaces combinent les deux : un modèle classique pour la décision opérationnelle, un modèle génératif pour interagir en langage naturel avec un humain. Le bon réflexe consiste à choisir l’outil en fonction du problème à résoudre, pas en fonction de la mode médiatique.

Comment éviter de chercher des cas d’usage pour ChatGPT à tout prix ?

En inversant la démarche. On ne part pas de l’outil mais de l’irritant métier : processus lent, décision fragile, volume documentaire ingérable, tâche pénible et répétitive. On évalue ensuite quelle solution technique est la plus adaptée, qui peut être une IA générative, un modèle classique, une automatisation simple ou une refonte de processus sans technologie nouvelle. En atelier d’idéation, une majorité de bonnes idées remontées par les équipes ne nécessitent en réalité pas d’IA générative pour aboutir.

Pourquoi parle-t-on de « génération » et pas de « création » ?

Le mot génération renvoie à un processus statistique de production d’échantillons cohérents avec une distribution apprise. Il n’implique ni intention, ni compréhension, ni originalité au sens artistique. C’est une nuance importante pour les usages professionnels : un modèle génératif ne crée pas au sens humain du terme, il produit des sorties probables compte tenu des données qu’il a vues.

Derrière le G de ChatGPT : distinguer le génératif de ce qui ne l’est pas