Claude Shannon, le prénom discret derrière l'IA Claude

En formation, je pose souvent une question simple aux cadres et aux managers que j’accompagne : pourquoi cet assistant s’appelle-t-il Claude ? Les réponses fusent. Un prénom humain, sobre, universel, facile à prononcer dans plusieurs langues. Tout cela est exact. Anthropic a retenu un nom familier, accessible, non agressif. Mais le choix peut aussi se lire comme un clin d’œil à Claude Shannon, un chercheur que peu de cadres connaissent, alors que ses travaux ont profondément structuré l’informatique moderne, les télécommunications et, indirectement, l’intelligence artificielle générative.

Cette filiation mérite qu’on s’y arrête. Pas pour le folklore, mais parce qu’elle aide à comprendre ce que fait réellement une IA générative quand elle produit du texte.

L’intuition fondatrice : mesurer l’information sans mesurer le sens

En 1948, Claude Shannon publie dans le Bell System Technical Journal un article intitulé A Mathematical Theory of Communication.

Le problème qu’il traite est très concret. À l’époque, les télécommunications doivent transmettre des messages dans des canaux imparfaits. Les signaux sont bruités, les lignes dégradent l’information, les erreurs sont fréquentes. Shannon cherche à comprendre combien d’information peut passer dans un canal donné, avec quel niveau de fiabilité et jusqu’à quelle limite.

Sa réponse est d’une grande portée. Il définit notamment l’entropie, qui mesure l’incertitude d’une source d’information, et la capacité d’un canal, qui désigne la quantité maximale d’information pouvant être transmise de manière fiable. Ce cadre permet de penser la communication non plus comme une simple circulation de messages, mais comme un problème mathématique général.

L’apport le plus puissant tient à une séparation conceptuelle. Dans la théorie de Shannon, l’information n’est pas d’abord définie par ce qu’elle signifie pour un humain. Elle est définie par son degré d’incertitude. Un message très prévisible apporte peu d’information. Un message inattendu en apporte davantage.

Cette idée peut surprendre. Elle semble réduire la richesse du langage à une logique de probabilité. Mais c’est précisément cette réduction qui a rendu possible une grande partie de l’ingénierie numérique moderne. Une phrase, une image, un son, un fichier, une vidéo : tous peuvent être ramenés à une représentation numérique, mesurée, transmissible, recomposable.

Shannon ne dit pas qu’un message est vrai, utile ou intelligent. Il dit qu’il peut être mesuré comme une quantité d’information. Cette distinction reste essentielle pour comprendre les IA génératives. Un modèle peut produire un texte très probable, très fluide et très convaincant, sans que ce texte soit nécessairement exact.

Du télégraphe aux LLMs : la prédiction du langage comme problème statistique

Trois ans plus tard, Shannon prolonge ce cadre en l’appliquant directement au langage. En 1951, il publie Prediction and Entropy of Printed English.

Il y montre que le langage écrit n’est pas aléatoire. Il contient des régularités statistiques fortes. Certaines lettres, certains mots, certaines constructions syntaxiques sont nettement plus probables que d’autres. Une partie de la suite d’un texte peut être anticipée à partir du contexte. L’anglais imprimé, comme le français, présente une forte redondance.

Cette intuition, simple en apparence, structure aujourd’hui le fonctionnement des grands modèles de langage. À chaque étape, un LLM estime la probabilité du prochain token. Ce token peut correspondre à un mot, à une partie de mot, à un signe ou à un élément de code. Le modèle choisit ensuite une continuation possible selon une distribution de probabilité. Il travaille sur de l’incertitude structurée.

Les LLMs ont évidemment changé d’échelle. Ils mobilisent des architectures neuronales, des milliards de paramètres et des corpus massifs. L’architecture Transformer, introduite par Vaswani et al., 2017 dans l’article Attention Is All You Need, leur permet de modéliser les relations entre les éléments d’une séquence de manière inédite.

GPT-3, présenté en 2020 par OpenAI comme un modèle autorégressif de 175 milliards de paramètres, illustre la montée en puissance industrielle de ce paradigme.

Mais le principe reste lisible : une IA générative apprend à réduire l’incertitude sur la suite probable d’un texte. Shannon n’a pas inventé les Transformers. Il a rendu pensable une partie du problème en montrant que le langage pouvait être étudié comme une source probabiliste, indépendamment de son sens.

Ce que cela change pour un cadre

C’est ici que l’héritage de Shannon devient un sujet de gouvernance, et plus seulement d’histoire des sciences.

Une bonne performance statistique ne signifie pas une bonne réponse métier. Un modèle peut produire une phrase fluide, plausible et bien structurée, tout en étant factuellement fausse. La probabilité linguistique n’est pas la vérité. Cette nuance doit être intégrée dans toute politique d’usage de l’IA, en particulier dans les fonctions juridiques, financières, RH, conformité, audit, achats, communication ou relation client.

Les recherches récentes réinvestissent d’ailleurs les concepts de Shannon pour traiter cette difficulté. En 2024, un article publié dans Nature propose d’utiliser l’entropie sémantique pour détecter certaines confabulations des grands modèles de langage.

L’idée est élégante : évaluer l’incertitude non seulement sur les formulations possibles, mais aussi sur le sens des réponses produites. Quand un modèle propose plusieurs réponses dont les formulations diffèrent mais dont le sens converge, sa confiance sémantique est forte. Quand les sens divergent, l’incertitude est révélatrice d’un risque de confabulation.

Pour les organisations, cela ouvre une voie technique utile mais ne dispense pas des contrôles humains, des sources vérifiées ni d’une gouvernance claire. Les indicateurs issus de la théorie de l’information aident à comprendre la confiance statistique d’un modèle. Ils ne suffisent pas à garantir sa conformité, sa véracité ou sa valeur opérationnelle.

Trois conséquences pratiques en découlent pour les cadres qui pilotent un déploiement d’IA.

D’abord, la qualité des données reste centrale. Shannon travaillait déjà sur des canaux bruités. Les organisations, elles, manipulent des données bruitées : doublons, biais, documents obsolètes, référentiels incomplets. Une IA déployée sur une base documentaire fragile produira des résultats fragiles.

Ensuite, la prédiction n’est pas la compréhension. Un modèle peut prédire efficacement la suite d’un texte sans disposer d’une compréhension humaine du contexte. On n’expose donc pas un modèle prédictif à une décision qui exige une compréhension située.

Enfin, l’IA doit être pensée comme une chaîne complète. Choisir un modèle performant ne suffit pas. Il faut définir les cas d’usage, les données accessibles, les droits, les contrôles, les critères de validation et les responsabilités.

Pourquoi ce prénom continue d’éclairer le présent

Le nom Claude choisi par Anthropic fonctionne donc comme un symbole utile. Il évoque une IA contemporaine, mais renvoie aussi à une histoire plus longue : celle de la transformation de l’information en objet mathématique. Cette filiation est précieuse pour toute personne qui cherche à comprendre l’IA au-delà de son interface.

Lorsque je termine la séquence en formation, je formule la chose ainsi : derrière les assistants conversationnels, les agents autonomes et les modèles multimodaux, il y a une idée simple et puissante. L’information peut se mesurer. Et cette idée continue de structurer notre manière de penser, d’utiliser et de gouverner l’intelligence artificielle.

Claude Shannon n’a pas créé l’IA générative. Mais il a contribué à bâtir le monde dans lequel elle est devenue possible. C’est précisément pour cela que son nom mérite d’être connu au-delà des cercles scientifiques. Le prochain article de cette série s’intéressera à un autre nom commercial significatif, choisi cette fois par une jeune entreprise de recherche en ligne : Perplexity. Là encore, derrière une dénomination presque anodine se cache un concept mathématique précis, hérité directement des travaux de Shannon.

Cet article s’appuie sur une idée originale personnelle et a été élaboré avec l’aide d’une IA générative pour la recherche d’information et la structuration du texte ; je conserve la main sur l’analyse, la sélection des contenus et j’assure la relecture finale.

Sources

Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal. https://onlinelibrary.wiley.com/doi/10.1002/j.1538-7305.1948.tb01338.x

Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal. https://onlinelibrary.wiley.com/doi/10.1002/j.1538-7305.1951.tb01366.x

Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762. https://arxiv.org/abs/1706.03762

Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165. https://arxiv.org/abs/2005.14165

Farquhar, S., Kossen, J., Kuhn, L., & Gal, Y. (2024). Detecting hallucinations in large language models using semantic entropy. Nature, vol. 630. https://www.nature.com/articles/s41586-024-07421-0

FAQ

Pourquoi Anthropic a-t-elle choisi le prénom Claude pour son IA ?

Anthropic n’a pas communiqué de filiation officielle avec un chercheur particulier. Le prénom Claude a été retenu pour sa sonorité humaine, sa neutralité et son caractère prononçable dans plusieurs langues. La proximité avec Claude Shannon est cohérente avec l’histoire scientifique de la discipline, sans qu’elle soit revendiquée comme une dédicace explicite.

Qui était Claude Shannon ?

Claude Shannon (1916-2001) est un mathématicien et ingénieur américain, considéré comme le père de la théorie de l’information. Son article fondateur de 1948 a posé les bases mathématiques de la communication moderne, du stockage numérique, de la compression et de la correction d’erreurs.

Claude Shannon, le prénom discret derrière l’IA Claude