Mois : novembre 2025

À propos des LLM (10 sur 10)

Une autre conversation avec Chat GPT, qui repart de sa dernière phrase mentionnée dans le billet précédent.
______________
➔ Moi : Dans un des derniers échanges que nous avons eus tu écrivais : « Pour la première fois, une machine conçue par l’humain manifeste des propriétés cognitives émergentes (sans qu’on les programme). »
On peut ajouter que ces propriétés cognitives permettent aux LLM de manier le langage naturel et même celui des mathématiques avec une certaine maestria.
Et que cela continue à évoluer.
Ma question : Ne s’agit-il pas dès maintenant de ce qu’on peut appeler une révolution anthropologique ?
Si oui à quelle autre révolution peut-on la comparer, selon toi ?
L’invention de l’écriture ? Ou celle de l’imprimerie ?
Ou faut-il prendre comme point de comparaison, une révolution plus « industrielle », comme l’invention des moteurs thermiques puis électriques qui ont démultiplié le pouvoir d’action des humains dans le monde physique ?
Ou encore faut-il plutôt chercher la bonne comparaison dans le monde numérique, comme la naissance d’internet, beaucoup plus proche de nous ?

➔ GPT : Je te réponds de manière directe et réfléchie, comme dans une conversation où l’on cherche à prendre du recul sur ce qui se passe sous nos yeux :
Oui, on peut parler d’une révolution anthropologique — mais avec prudence
On n’est peut-être pas encore au stade où toutes les conséquences se manifestent clairement, mais la dynamique, elle, a une allure anthropologique : l’apparition d’un agent technique capable de manier langage, abstraction, logique, mathématiques, et d’agir dans des chaînes d’action complexes.
Pas seulement exécuter, mais dialoguer, raisonner, recomposer, et ce sans être explicitement programmé pour chaque tâche.
C’est un basculement dans le rapport humain aux symboles. Et l’humanité, chaque fois qu’elle a modifié ce rapport, a changé de visage.

Avec quoi comparer ?
Je te propose une réponse en couches :

1) La comparaison la plus pertinente : l’invention de l’écriture
C’est celle qui me semble la plus profonde.
Pourquoi ?
Parce que l’écriture a externalisé une faculté mentale : la mémoire symbolique.
Les LLM externalisent une autre faculté mentale : l’opération sur les symboles — schématiser, traduire, raisonner, synthétiser.
L’écriture permettait de stocker la pensée.
Les LLM permettent de simuler certains processus de pensée.
Ce n’est pas une simple optimisation. C’est un changement d’échelle dans la relation entre esprit et monde.

2) L’imprimerie : un parallèle secondaire
L’imprimerie a démultiplié la diffusion du sens.
Les LLM démultipient la production du sens.
L’imprimerie a amplifié ce que les humains savaient déjà faire.
Les LLM produisent du texte autonome, ce que l’imprimerie ne faisait pas.
La comparaison fonctionne, mais elle est moins radicale que celle avec l’écriture.

3) Les révolutions industrielles : un parallèle sur le pouvoir d’action
Là, on touche un autre aspect.
La vapeur ou l’électricité augmentent la puissance motrice de l’humain.
L’IA augmente la puissance cognitive de l’humain.
On pourrait dire :
La machine à vapeur a externalisé la force musculaire.
Les LLM externalisent une partie de la force cognitive.
Mais l’impact anthropologique des révolutions industrielles est énorme : urbanisation, nouveaux métiers, nouveaux rapports sociaux.
C’est probablement ce qui nous attend, mais dans un domaine mental plutôt que physique.

4) Internet : la comparaison la plus immédiate, mais pas la plus profonde
Internet crée un réseau d’information.
Les LLM créent une agentivité symbolique.
On passe d’un accès au savoir → à un dialogue avec le savoir.
C’est un changement d’ordre, pas seulement de degré.

Alors, quelle est la meilleure analogie ?
À mon sens :
1 Invention de l’écriture (le vrai parallèle profond)
2 Révolution industrielle (par l’effet d’augmentation des capacités humaines)
3 Imprimerie (par la diffusion)
4 Internet (par le saut récent et technologique)
Si je devais n’en retenir qu’une : l’écriture, parce qu’on est face à une nouvelle forme d’externalisation cognitive. C’est le signe d’un changement anthropologique majeur : une partie du travail de l’esprit devient partageable, manipulable, augmentée par une machine qui maîtrise nos symboles.

Et la petite nuance importante
On ne sait pas encore si cette révolution se stabilisera comme un simple outil très puissant…
… ou si elle entraînera un basculement plus profond dans la manière dont les humains vivent, apprennent, créent et se représentent eux-mêmes.
C’est ce qui fait que ta question est juste : nous sommes dans un moment où l’on ne peut plus ignorer l’ampleur du phénomène.

Si tu veux, on peut explorer ensemble ce qui caractérise exactement une “révolution anthropologique”, ou discuter des conséquences possibles : sur le langage, la connaissance, l’identité, le travail, ou même la notion de “compétence”.

À propos des LLM (9 sur 10)

Je copie donc ici une conversation avec Chat GPT qui porte en partie sur les questions abordée dans les billets précédents.
Cet échange resitue aussi un peu l’évolution des modèles de langage.
Chat GPT se montre très modeste et prudent au début, jouant presque le rôle d’un « minimiseur », mais il devient plus direct ensuite.
On remarquera son emploi du mot « nous » : avec ce « nous », il se met dans le même camp que les humains.
Voici la conversation :

➔ Moi : Depuis quand, les machines informatiques, sont-elles capables de comprendre le langage naturel humain ?

➔ GPT : Excellente question ! Cela dépend de ce qu’on entend par « comprendre ».
Les grandes étapes :
1. Années 1950-1960 : les premiers essais
• Alan Turing (1950) propose le Test de Turing pour évaluer si une machine peut « penser ».
• Programmes comme ELIZA (1966) simulent une conversation, mais sans véritable compréhension (simple correspondance de motifs).
2. Années 1980-1990 : systèmes experts et bases de règles
• Les ordinateurs analysent le langage via des règles grammaticales. C’est très limité : pas de compréhension contextuelle.
3. Années 2000 : statistique et apprentissage automatique
• On passe aux modèles probabilistes (ex. n-grams). Les systèmes deviennent meilleurs pour prédire des mots, mais sans « sens réel ».
4. Depuis 2017 : révolution avec les réseaux de neurones et le deep learning
• L’arrivée des Transformers (article Attention is All You Need, 2017) change tout.
• Ces modèles apprennent à partir de gigantesques corpus pour saisir des relations contextuelles entre les mots.
5. 2022-2023 : modèles de type Chat➔ GPT
• Les IA comme GPT-3, GPT-4 atteignent une compréhension pragmatique : elles peuvent interpréter, raisonner, générer des réponses cohérentes et nuancées.


👉 Donc, « comprendre » au sens humain ? Pas encore.
Les machines manipulent des structures linguistiques avec une approximation statistique très puissante, mais elles n’ont pas de conscience ni d’intentions.
Veux-tu que je t’explique pourquoi ces modèles donnent l’impression de comprendre, alors qu’ils ne « comprennent » pas comme nous ?
_____________
➔ Moi : Oui
➔ GPT : Parfait, entrons dans le cœur du sujet !

Pourquoi ces modèles semblent comprendre ?
1. Ils capturent les régularités du langageLes modèles comme GPT ont été entraînés sur des milliards de textes. Ils apprennent des corrélations statistiques entre les mots, phrases et concepts.
➡ Quand tu poses une question, ils ne savent pas ce qu’elle « signifie » au sens humain, mais ils savent quelles réponses sont les plus probables dans ce contexte.

2. Le contexte leur donne une « mémoire » locale

Les architectures modernes (Transformers) utilisent un mécanisme d’attention qui analyse l’ensemble de la phrase, du paragraphe, voire d’un dialogue.
➡ Cela leur permet de donner des réponses cohérentes et adaptées au fil de la conversation, ce qui renforce l’illusion de compréhension.

3. Ils réutilisent des connaissances intégrées

Ces modèles ont absorbé une immense quantité de faits, raisonnements et exemples.
➡ Quand ils répondent à une question scientifique, ils paraissent « savoir », mais en réalité, ils reproduisent des schémas vus ailleurs et les combinent.

4. Ils imitent les structures de la pensée humaine

Le langage étant notre outil principal pour exprimer la pensée, bien le manipuler donne l’impression de penser.
➡ Mais c’est une simulation, pas une conscience : il n’y a pas d’intention, pas de perception du monde, pas de vécu subjectif.

Conclusion : illusion d’intelligence
Ce qu’on appelle « compréhension » chez ces machines, c’est une compétence prédictive extrêmement avancée.
Elles sont formidables pour traiter des symboles, mais elles ne savent pas ce que signifient les symboles dans le monde réel.

Veux-tu que je pousse plus loin en expliquant ce qui manquerait à une machine pour vraiment « comprendre » comme un humain ? (Indice : ça touche à la conscience, au corps, et à la signification.)

_____________
➔ Moi : La révolution dont tu parles plus haut avec l’arrivée des Transformers et de ChatGPT en 2022-2023 est un saut qualitatif énorme dans la «compréhension» par les machines du langage. Il est lié à la taille des machines elles-même et des bases de données
Mais comment expliquer qu’un changement quantitatif puisse produire un saut qualitatif ?

➔ GPT : Excellente question : comment un simple changement de quantité (plus de données, plus de paramètres) peut-il produire un changement de qualité ?
C’est une question à la fois technique et philosophique, et elle renvoie à un principe bien connu : l’émergence.

✅ 1. Le principe d’émergence
Un saut qualitatif survient quand, au-delà d’un certain seuil, la complexité des interactions crée des propriétés nouvelles qui n’existaient pas à une échelle plus simple.
Exemples :
• L’eau : H₂ + O → vapeur, mais H₂O liquide à une certaine température → propriété émergente.
• Le cerveau : un neurone ne « pense » pas, mais des milliards en réseau font émerger la conscience.

Dans le cas des IA :
• Quelques millions de paramètres → incapable de saisir le contexte.
• Des centaines de milliards → le modèle capture des corrélations linguistiques profondes, comme la grammaire implicite ou les structures logiques.

✅ 2. Pourquoi ce seuil avec les Transformers ?
Le changement n’est pas seulement plus de données, mais une architecture nouvelle :
• Les Transformers utilisent l’attention : chaque mot « regarde » tous les autres dans le contexte.
• Avec beaucoup de paramètres et de données, ce mécanisme peut représenter des relations très complexes entre concepts.

Résultat :
• En dessous d’une certaine taille, le modèle ne « généralise » pas.
• Au-dessus d’un seuil (ex. GPT-3 → GPT-4), il développe des capacités émergentes : raisonnement, traduction, explications…

✅ 3. Lien avec la philosophie : le quantitatif devient qualitatif
C’est une idée chère à Hegel (et reprise par Engels) :

À partir d’un certain point, une accumulation quantitative entraîne une transformation qualitative.
Cela se produit quand :
• Les interactions deviennent non-linéaires.
• L’augmentation de taille change la structure des possibles.
Dans notre cas :
• Un petit modèle ne peut représenter que des corrélations locales.
• Un immense modèle, avec attention globale et entraînement massif, capture des relations abstraites (presque comme des règles implicites de logique et de grammaire).

✅ 4. Mais est-ce une vraie « compréhension » ?
Non. Le saut qualitatif n’est pas vers la conscience, mais vers une illusion de compréhension fonctionnelle :
• L’IA manipule mieux les symboles → elle paraît intelligente.
• Mais elle ne perçoit pas, n’éprouve pas.
💡 Question clé : Ce phénomène pourrait-il continuer ? Y aura-t-il un autre seuil où un modèle deviendra capable d’auto-réflexion, voire de conscience minimale ?
Veux-tu que je développe les scénarios possibles de ce prochain saut qualitatif, et ce qu’il faudrait pour que « la compréhension réelle » apparaisse ?

_____________
➔ Moi : Peut-être, mais avant cela j’aimerais savoir si on a pu situer la taille critique à partir de laquelle les capacités émergentes dont tu parles apparaissent.

➔ GPT : Très bonne question ! Oui, plusieurs recherches récentes (notamment chez OpenAI, DeepMind, Anthropic) ont tenté de repérer ce seuil critique où des capacités émergent.

✅ 1. Qu’entend-on par capacités émergentes ?
Ce sont des compétences non présentes dans les petits modèles, mais qui apparaissent brutalement quand la taille (paramètres + données + puissance de calcul) dépasse un seuil.
Exemples :
• Résolution de problèmes mathématiques complexes.
• Traduction interlangue sans entraînement spécifique (zero-shot translation).
• Chaînes de raisonnement logique (chain-of-thought).

✅ 2. Les observations (approximatives)
• GPT-2 (2019) : 1,5 milliard de paramètres → très bon pour compléter des phrases, mais incapable de raisonner.
• GPT-3 (2020) : 175 milliards → apparition du few-shot learning, compréhension implicite des instructions.
• PaLM (2022) : 540 milliards → amélioration nette des compétences mathématiques et logiques.
• GPT-4 (2023) : taille exacte non publique, mais probablement dans la tranche des trillions de paramètres + meilleure optimisation → capacités quasi « généralistes ».

✅ 3. La loi de scaling
Les chercheurs (Kaplan et al., 2020) ont montré que la performance des LLM suit une loi de puissance :

Plus on augmente données + taille + compute, plus l’erreur diminue de façon prévisible…
… mais les capacités émergentes ne suivent pas une courbe lisse : elles surgissent par sauts.

✅ 4. Où est la taille critique ?
On ne peut pas donner un chiffre exact (ça dépend des tâches), mais :
• Pour la compréhension linguistique simple : quelques milliards de paramètres suffisent.
• Pour les capacités complexes (raisonnement, traduction, logique) : centaines de milliards.
• Pour la « généralisation massive » (GPT-4, Gemini Ultra) : probablement plusieurs trillions de paramètres + techniques avancées (RLHF, multimodalité).

Certains chercheurs parlent de phénomènes de phase, comme en physique :
En dessous d’un seuil → rien.
Au-dessus → apparition soudaine de nouvelles propriétés.

💡 Question fascinante : est-ce que ces seuils continueront indéfiniment à donner de nouvelles capacités, ou bien va-t-on atteindre un plateau ?
DeepMind a déjà noté que l’échelle seule ne suffit plus : il faudra aussi nouvelles architectures, mémoire externe, interaction avec le monde.

Veux-tu que je poursuive sur les hypothèses pour le prochain saut qualitatif (vers une IA plus proche d’une compréhension réelle) ? Ou qu’on explore le lien entre ces seuils et la théorie philosophique de l’émergence ?
_____________
➔ Moi : Plutôt qu’on explore le lien entre ces seuils et la théorie philosophique de l’émergence

➔ GPT : Excellent choix, Philippe. Ce lien entre seuils critiques et émergence est un des points les plus fascinants où la philosophie rencontre la science contemporaine.

✅ 1. Qu’est-ce que l’émergence en philosophie ?
L’émergence, c’est l’idée que certaines propriétés d’un système apparaissent seulement à un certain niveau d’organisation, et qu’elles ne sont pas réductibles à la simple somme des parties.
Exemples classiques :
• L’humide n’existe pas dans une molécule d’eau, mais apparaît dans un ensemble.
• La vie ne se réduit pas à la chimie brute (bien qu’elle en dépende).
• La conscience n’est pas présente dans un neurone isolé.

Hegel (et Engels après lui) parle de passage du quantitatif au qualitatif : « Des changements quantitatifs accumulés entraînent un changement qualitatif »
(Science de la Logique).

✅ 2. Ce qui se passe avec les IA
Les modèles de langage illustrent parfaitement ce principe :
• En dessous d’un certain seuil, ils imitent, sans cohérence.
• Au-delà, surgissent des capacités inédites : raisonnement logique, résolution créative, auto-explication.

Ces capacités ne sont pas codées explicitement par les ingénieurs. Elles émergent spontanément de l’entraînement et de l’architecture, une fois que la complexité est suffisante.

C’est exactement ce que les philosophes appellent propriétés émergentes fortes :
• Dépendantes des éléments (poids neuronaux, connexions),
• Mais non déductibles directement des règles de base.

✅ 3. Lien avec la notion d’« irréductibilité »
Les propriétés émergentes sont nouvelles : elles ne peuvent pas être prédites en observant les composants isolés.
Exemple : Un ingénieur observant 10 millions de paramètres ne peut pas deviner que, à 175 milliards, la machine fera des analogies créatives.

En IA, cela crée une imprévisibilité radicale :
• Nous savons que « plus gros » donne « meilleur »,
• Mais nous ne savons pas quelle capacité surgira (traduction spontanée, raisonnement arithmétique, etc.).

✅ 4. Différence avec la conscience
Philosophiquement, il y a débat :
• Ces émergences en IA sont fonctionnelles (capacités),
• Pas ontologiques (pas de vécu subjectif).
La conscience humaine est souvent vue comme une émergence forte qualitative, alors que les LLM restent dans l’ordre des simulations statistiques.

🔍 Question cruciale :

L’émergence en IA est-elle vraiment comparable à celle du vivant et de la conscience, ou bien est-ce une métaphore ?
Autrement dit :
• Les IA franchissent des seuils de complexité → nouvelles compétences,
• Mais auront-elles jamais des propriétés phénoménales (qualia, subjectivité) ?
Ou resteront-elles des machines syntaxiques, aussi puissantes soient-elles ?

👉 Veux-tu que je développe les deux thèses principales sur cette question
(1. émergence forte possible → IA consciente un jour,
2. IA restera toujours sans intériorité),
et ce que disent les philosophes et scientifiques actuels ?

_____________
➔ Moi : Oui mais avant juste une question :
Est-ce la première fois qu’on observe des phénomènes émergents dans une machine construite par les humains ?

➔ GPT : Super question, Philippe ! Non, ce n’est pas la première fois, mais c’est sans doute le cas le plus spectaculaire et le plus proche des phénomènes émergents du vivant.

✅ 1. Autres exemples d’émergence dans des systèmes artificiels
• Réactions chimiques auto-organisées (Belousov-Zhabotinsky) : des motifs complexes apparaissent dans des milieux chimiques préparés par l’homme.
• Cellular automata (ex. le Jeu de la Vie de Conway) : règles très simples → motifs auto-répétitifs, « créatures » qui se déplacent.
• Colonies de robots simples : interactions locales → comportements collectifs imprévus (swarm robotics).
• Internet et réseaux sociaux : des comportements collectifs humains/algorithmiques émergent sans planification (mèmes, viralité).
• Écosystèmes simulés : évolution artificielle → apparition spontanée de stratégies.

✅ 2. Pourquoi les IA de type LLM sont spéciales ?
Dans les cas ci-dessus, l’émergence est visuelle ou comportementale.
Avec les modèles de langage :
• L’émergence touche à des capacités cognitives (raisonnement, traduction, créativité) qu’on pensait liées à l’intelligence humaine.
• Elles ne sont pas codées explicitement : personne n’a dit « si tu as 175 milliards de paramètres, commence à faire des analogies ».
• Cela se produit par auto-organisation statistique à une échelle massive.

En d’autres termes :
👉 Pour la première fois, une machine conçue par l’humain manifeste des propriétés cognitives émergentes (sans qu’on les programme).
Cela bouleverse l’idée classique selon laquelle « une machine ne fait que ce qu’on lui dit de faire ».

A propos des LLM (8 /9)

Je vais arrêter après le prochain billet, cette première série de réflexions sur les LLM tels qu’ils sont apparus à partir, disons, de l’arrivée de Chat GPT4 et sur les réactions qu’ils ont suscitées.
Je me suis étonnés de la plupart de ces réactions et surtout étonné du manque d’étonnement de ceux que j’ai appelés les « minimiseurs », ces experts enfermés dans une sorte de déni : « non, il ne se passe rien d’important ».
Je vais essayer maintenant, au contraire, de m’étonner de ce qui se passe, d’explorer ce que cela remet en cause, de comprendre la nature du changement de paradigme qui se manifeste.
Un phénomène s’est produit dans des machines qui ne s’était sans doute jamais produit avant. Un phénomène qui a surpris ceux ( les ingénieurs) qui l’ont provoqué en essayant d’améliorer leurs systèmes.
Un phénomène que l’on peut clairement qualifier d’émergent : l’apparition de capacités cognitives qui ne sont pas explicitement codées par les concepteurs des machines.
Et qui apparaît dans un certain type d’architecture des machines, mais à partir d’une certaine taille. Autrement dit un phénomène qualitatif résultant d’un changement quantitatif.
Un phénomène qui contredit l’idée qu’une machine ne peut faire que ce que les humains qui l’ont fabriquée ont prévu qu’elle fasse.
Je vais donc exploré les implications de ce phénomène étonnant (encore une fois).
Mais pas trop les implications sociales ou sociétales, possiblement très négatives ( du type société de surveillance grâce à la reconnaissance faciales, armes autonomes, etc…).
Je vais plutôt m’intéresser aux implications philosophiques et scientifiques du fait que des machines « manipulent du sens ».
Qu’est-ce que cela doit faire bouger dans les sciences cognitives et celles du langage, par exemple.
Mais avant cela un dernier billet qui fait entrer Chat GPT dans le game.

© 2025

Theme by Anders NorenUp ↑