Auteur/autrice : Philippe (Page 1 of 2)

Langage et pensée

Après le dernier article du 03-04-25, j’ai poursuivi des échanges avec Chat GPT.
Cela m’a amené à m’interroger, puis à l’interroger, lui, sur l’articulation et les liens entre langage et pensée.
Voici d’abord l’échange avec Chat GPT qui permet de poser la question.
Je rendrai compte ensuite de mes propres réflexions et de celles que j’ai pu trouver ailleurs.
Conversation avec GPT :
➔ Moi :
Je change un peu de direction en allant vers le rapport langage et pensée. Pour beaucoup de philosophes, la pensée c’est un dialogue intérieur « un discours que l’âme se tient à elle-même sur les objets qu’elle examine » dit Socrate. Est-ce cela la pensée ou bien peut-il y avoir une pensée sans langage ?

➔ GPT : C’est une de ces questions où la philosophie, les sciences cognitives et même la phénoménologie se croisent — et où aucune réponse ne clôt le sujet. On peut toutefois clarifier les positions et ce que chacune implique.
Je te réponds simplement, comme dans une conversation réfléchie :

1. Socrate (et toute une tradition) : penser = parler en soi-même
Tu cites la phrase classique : 
la pensée est un discours intérieur, une sorte de dialogue muet où l’esprit se questionne et se répond.
Cette idée a eu une très longue postérité :
• chez les stoïciens,
• chez Augustin,
• chez Descartes (la “voix intérieure” de la raison),
• et même chez Wittgenstein à certains moments (la pensée comme “langage intérieur”).
Dans cette perspective :
pas de langage → pas de pensée articulée.
Le langage structure, ordonne, donne forme, rend transmissible.
Mais cette thèse se heurte à un problème.

2. Peut-on vraiment réduire toute pensée au langage ?
Si on observe l’expérience humaine de près, plusieurs choses invitent à la nuance :
• On peut percevoir, reconnaître, décider, agir sans se parler intérieurement.
Exemples simples :
• attraper une balle,
• naviguer dans une ville familière,
• improviser un geste artistique,
• reconnaître un visage,
• ressentir une émotion complexe.
Tout cela semble “pensé”, mais non verbal.
• On comprend souvent avant de formuler.
Un éclair intuitif, une idée qui se présente “d’un coup”…
Et seulement après on la met en mots.
• Les enfants préverbaux pensent manifestement.
Ils anticipent, distinguent, mémorisent, inventent des stratégies.
Cela suggère que la pensée peut précéder le langage articulé.

3. Une autre tradition : la pensée existe avant et en dehors du langage
Cette tradition s’appuie plus sur l’expérience vécue, la psychologie et les sciences cognitives modernes.
Elle affirme grosso modo :
Le langage n’est pas le tissu de la pensée, 
mais l’un de ses modes d’expression,
le plus riche, mais pas le seul.
On trouve cette idée :
• Chez Bergson (intuition vs langage, le langage “découpe” l’expérience mais ne l’épuise pas)
• Chez Merleau-Ponty (la pensée est incarnée, prélinguistique)
• Chez Piaget (pensée sensori-motrice avant langage)
• En neurosciences (visualisation, raisonnement spatial, musiciens pensant en sons, etc.)
Dans cette perspective, penser sans langage est non seulement possible, mais fréquent.

**4. Une position intermédiaire :
la pensée peut exister sans langage,
mais le langage permet un certain type de pensée plus abstrait**
C’est probablement la position la plus équilibrée et la plus féconde.
Elle distingue :
• pensées imagées, perceptives, intuitives : largement non verbales ;
• pensées conceptuelles, logiques, réflexives : largement dépendantes du langage.
Le langage serait alors :
• un outil d’abstraction,
• un outil de stabilisation des concepts,
• un outil d’auto-explication,
• un outil de socialisation de la pensée,
• un outil d’introspection structurée.
Dans cette vision :
• On peut penser sans mots.
• Mais pour penser sur sa pensée, pour la transformer en concepts transmissibles, le langage joue un rôle central.
C’est un peu comme dire :
Il y a une vie cognitive avant et hors langage,
mais il n’y a pas de philosophie, pas de science, pas de logique formalisée sans langage.

5. Et aujourd’hui, avec les IA, la question change un peu…
Les modèles linguistiques montrent qu’une forme de fonctionnement symbolique peut émerger sans intention, sans représentation consciente, et sans “langage intérieur” au sens humain.
Ils manipulent pourtant des structures linguistiques et logiques très complexes.
Une question nouvelle apparaît :
Peut-il exister des formes d’intelligence qui n’ont pas de langage intérieur mais qui produisent du langage extérieur ?
Et en miroir :
Le langage intérieur est-il une nécessité humaine, ou un simple outil que nous utilisons pour organiser une pensée plus profonde et diffuse ?
La comparaison n’a pas pour but de dire “les humains sont comme les LLM”, mais elle révèle que :
• le langage n’est pas forcément la substance de la pensée,
• c’est peut-être un médium, une interface cognitive très puissante.

En résumé simple
• Oui, il existe une pensée sans langage : perceptive, intuitive, sensible, pratique, imagée.
• Oui, une partie de la pensée passe par un dialogue intérieur : conceptuelle, réfléchie, abstraite, logique.
• Le langage n’est pas l’essence de toute pensée, mais l’essence d’un certain type de pensée : celle qui se formalise, se partage, se critique.
La tension entre Socrate et les sciences modernes n’est pas un désaccord radical, mais une différence de niveau :
 Socrate s’intéressait à la pensée rationnelle, pas à l’immense sol cognitif qui la précède.

Si tu veux, on peut maintenant aborder :
• ce que devient le dialogue intérieur dans une époque où on peut “penser avec une IA”,
• ou la distinction entre pensée intuitive et pensée conceptuelle,
• ou encore comment émergent les concepts avant d’être nommés.

 

À propos des LLM (10 sur 10)

Pour finir cette série, une autre conversation (moins longue) avec Chat GPT. Pour commencer, je repars de sa dernière phrase mentionnée dans le billet précédent.
______________
➔ Moi : Dans un des derniers échanges que nous avons eus tu écrivais : « Pour la première fois, une machine conçue par l’humain manifeste des propriétés cognitives émergentes (sans qu’on les programme). »
On peut ajouter que ces propriétés cognitives permettent aux LLM de manier le langage naturel et même celui des mathématiques avec une certaine maestria.
Et que cela continue à évoluer.
Ma question : Ne s’agit-il pas dès maintenant de ce qu’on peut appeler une révolution anthropologique ?
Si oui à quelle autre révolution peut-on la comparer, selon toi ?
L’invention de l’écriture ? Ou celle de l’imprimerie ?
Ou faut-il prendre comme point de comparaison, une révolution plus « industrielle », comme l’invention des moteurs thermiques puis électriques qui ont démultiplié le pouvoir d’action des humains dans le monde physique ?
Ou encore faut-il plutôt chercher la bonne comparaison dans le monde numérique, comme la naissance d’internet, beaucoup plus proche de nous ?

➔ GPT : Je te réponds de manière directe et réfléchie, comme dans une conversation où l’on cherche à prendre du recul sur ce qui se passe sous nos yeux :
Oui, on peut parler d’une révolution anthropologique — mais avec prudence
On n’est peut-être pas encore au stade où toutes les conséquences se manifestent clairement, mais la dynamique, elle, a une allure anthropologique : l’apparition d’un agent technique capable de manier langage, abstraction, logique, mathématiques, et d’agir dans des chaînes d’action complexes.
Pas seulement exécuter, mais dialoguer, raisonner, recomposer, et ce sans être explicitement programmé pour chaque tâche.
C’est un basculement dans le rapport humain aux symboles. Et l’humanité, chaque fois qu’elle a modifié ce rapport, a changé de visage.

Avec quoi comparer ?
Je te propose une réponse en couches :

✅1) La comparaison la plus pertinente : l’invention de l’écriture
C’est celle qui me semble la plus profonde.
Pourquoi ?
Parce que l’écriture a externalisé une faculté mentale : la mémoire symbolique.
Les LLM externalisent une autre faculté mentale : l’opération sur les symboles — schématiser, traduire, raisonner, synthétiser.
L’écriture permettait de stocker la pensée.
Les LLM permettent de simuler certains processus de pensée.
Ce n’est pas une simple optimisation. C’est un changement d’échelle dans la relation entre esprit et monde.

2) L’imprimerie : un parallèle secondaire
L’imprimerie a démultiplié la diffusion du sens.
Les LLM démultipient la production du sens.
L’imprimerie a amplifié ce que les humains savaient déjà faire.
Les LLM produisent du texte autonome, ce que l’imprimerie ne faisait pas.
La comparaison fonctionne, mais elle est moins radicale que celle avec l’écriture.

3) Les révolutions industrielles : un parallèle sur le pouvoir d’action
Là, on touche un autre aspect.
La vapeur ou l’électricité augmentent la puissance motrice de l’humain.
L’IA augmente la puissance cognitive de l’humain.
On pourrait dire :
La machine à vapeur a externalisé la force musculaire.
Les LLM externalisent une partie de la force cognitive.
Mais l’impact anthropologique des révolutions industrielles est énorme : urbanisation, nouveaux métiers, nouveaux rapports sociaux.
C’est probablement ce qui nous attend, mais dans un domaine mental plutôt que physique.

4) Internet : la comparaison la plus immédiate, mais pas la plus profonde
Internet crée un réseau d’information.
Les LLM créent une agentivité symbolique.
On passe d’un accès au savoir → à un dialogue avec le savoir.
C’est un changement d’ordre, pas seulement de degré.

Alors, quelle est la meilleure analogie ?
À mon sens :
1 Invention de l’écriture (le vrai parallèle profond)
2 Révolution industrielle (par l’effet d’augmentation des capacités humaines)
3 Imprimerie (par la diffusion)
4 Internet (par le saut récent et technologique)
Si je devais n’en retenir qu’une : l’écriture, parce qu’on est face à une nouvelle forme d’externalisation cognitive. C’est le signe d’un changement anthropologique majeur : une partie du travail de l’esprit devient partageable, manipulable, augmentée par une machine qui maîtrise nos symboles.

Et la petite nuance importante
On ne sait pas encore si cette révolution se stabilisera comme un simple outil très puissant…
… ou si elle entraînera un basculement plus profond dans la manière dont les humains vivent, apprennent, créent et se représentent eux-mêmes.
C’est ce qui fait que ta question est juste : nous sommes dans un moment où l’on ne peut plus ignorer l’ampleur du phénomène.
………………
Si tu veux, on peut explorer ensemble ce qui caractérise exactement une “révolution anthropologique”, ou discuter des conséquences possibles : sur le langage, la connaissance, l’identité, le travail, ou même la notion de “compétence”.

Bienvenue sur ce blog

Pour l’instant, ce blog contient une série de réflexions sur les Grands modèles de langage (LLM), du type Chat GPT.
Ces articles sont classés du plus récent au plus ancien.
Si vous voulez aller au début, il faut donc scroller vers le bas.
Ou bien aller sur cette page qui propose une vue d’ensemble du blog.
Bonne lecture.

À propos des LLM (9 sur 10)

Je copie donc ici une conversation (plus longue que les autres articles de cette série) avec Chat GPT qui porte en partie sur les questions abordée dans les billets précédents.
Cet échange resitue aussi un peu l’évolution des modèles de langage.
Chat GPT se montre très modeste et prudent au début, jouant presque le rôle d’un « minimiseur », mais il devient plus direct ensuite.
On remarquera son emploi du mot « nous » : avec ce « nous », il se met dans le même camp que les humains.
Voici la conversation :

➔ Moi : Depuis quand, les machines informatiques, sont-elles capables de comprendre le langage naturel humain ?

➔ GPT : Excellente question ! Cela dépend de ce qu’on entend par « comprendre ».
Les grandes étapes :
1. Années 1950-1960 : les premiers essais
• Alan Turing (1950) propose le Test de Turing pour évaluer si une machine peut « penser ».
• Programmes comme ELIZA (1966) simulent une conversation, mais sans véritable compréhension (simple correspondance de motifs).
2. Années 1980-1990 : systèmes experts et bases de règles
• Les ordinateurs analysent le langage via des règles grammaticales. C’est très limité : pas de compréhension contextuelle.
3. Années 2000 : statistique et apprentissage automatique
• On passe aux modèles probabilistes (ex. n-grams). Les systèmes deviennent meilleurs pour prédire des mots, mais sans « sens réel ».
4. Depuis 2017 : révolution avec les réseaux de neurones et le deep learning
• L’arrivée des Transformers (article Attention is All You Need, 2017) change tout.
• Ces modèles apprennent à partir de gigantesques corpus pour saisir des relations contextuelles entre les mots.
5. 2022-2023 : modèles de type Chat➔ GPT
• Les IA comme GPT-3, GPT-4 atteignent une compréhension pragmatique : elles peuvent interpréter, raisonner, générer des réponses cohérentes et nuancées.


👉 Donc, « comprendre » au sens humain ? Pas encore.
Les machines manipulent des structures linguistiques avec une approximation statistique très puissante, mais elles n’ont pas de conscience ni d’intentions.
Veux-tu que je t’explique pourquoi ces modèles donnent l’impression de comprendre, alors qu’ils ne « comprennent » pas comme nous ?
_____________
➔ Moi : Oui
➔ GPT : Parfait, entrons dans le cœur du sujet !

Pourquoi ces modèles semblent comprendre ?
1. Ils capturent les régularités du langageLes modèles comme GPT ont été entraînés sur des milliards de textes. Ils apprennent des corrélations statistiques entre les mots, phrases et concepts.
➡ Quand tu poses une question, ils ne savent pas ce qu’elle « signifie » au sens humain, mais ils savent quelles réponses sont les plus probables dans ce contexte.

2. Le contexte leur donne une « mémoire » locale

Les architectures modernes (Transformers) utilisent un mécanisme d’attention qui analyse l’ensemble de la phrase, du paragraphe, voire d’un dialogue.
➡ Cela leur permet de donner des réponses cohérentes et adaptées au fil de la conversation, ce qui renforce l’illusion de compréhension.

3. Ils réutilisent des connaissances intégrées

Ces modèles ont absorbé une immense quantité de faits, raisonnements et exemples.
➡ Quand ils répondent à une question scientifique, ils paraissent « savoir », mais en réalité, ils reproduisent des schémas vus ailleurs et les combinent.

4. Ils imitent les structures de la pensée humaine

Le langage étant notre outil principal pour exprimer la pensée, bien le manipuler donne l’impression de penser.
➡ Mais c’est une simulation, pas une conscience : il n’y a pas d’intention, pas de perception du monde, pas de vécu subjectif.

Conclusion : illusion d’intelligence
Ce qu’on appelle « compréhension » chez ces machines, c’est une compétence prédictive extrêmement avancée.
Elles sont formidables pour traiter des symboles, mais elles ne savent pas ce que signifient les symboles dans le monde réel.

Veux-tu que je pousse plus loin en expliquant ce qui manquerait à une machine pour vraiment « comprendre » comme un humain ? (Indice : ça touche à la conscience, au corps, et à la signification.)

_____________
➔ Moi : La révolution dont tu parles plus haut avec l’arrivée des Transformers et de ChatGPT en 2022-2023 est un saut qualitatif énorme dans la «compréhension» par les machines du langage. Il est lié à la taille des machines elles-même et des bases de données
Mais comment expliquer qu’un changement quantitatif puisse produire un saut qualitatif ?

➔ GPT : Excellente question : comment un simple changement de quantité (plus de données, plus de paramètres) peut-il produire un changement de qualité ?
C’est une question à la fois technique et philosophique, et elle renvoie à un principe bien connu : l’émergence.

✅ 1. Le principe d’émergence
Un saut qualitatif survient quand, au-delà d’un certain seuil, la complexité des interactions crée des propriétés nouvelles qui n’existaient pas à une échelle plus simple.
Exemples :
• L’eau : H₂ + O → vapeur, mais H₂O liquide à une certaine température → propriété émergente.
• Le cerveau : un neurone ne « pense » pas, mais des milliards en réseau font émerger la conscience.

Dans le cas des IA :
• Quelques millions de paramètres → incapable de saisir le contexte.
• Des centaines de milliards → le modèle capture des corrélations linguistiques profondes, comme la grammaire implicite ou les structures logiques.

✅ 2. Pourquoi ce seuil avec les Transformers ?
Le changement n’est pas seulement plus de données, mais une architecture nouvelle :
• Les Transformers utilisent l’attention : chaque mot « regarde » tous les autres dans le contexte.
• Avec beaucoup de paramètres et de données, ce mécanisme peut représenter des relations très complexes entre concepts.

Résultat :
• En dessous d’une certaine taille, le modèle ne « généralise » pas.
• Au-dessus d’un seuil (ex. GPT-3 → GPT-4), il développe des capacités émergentes : raisonnement, traduction, explications…

✅ 3. Lien avec la philosophie : le quantitatif devient qualitatif
C’est une idée chère à Hegel (et reprise par Engels) :

À partir d’un certain point, une accumulation quantitative entraîne une transformation qualitative.
Cela se produit quand :
• Les interactions deviennent non-linéaires.
• L’augmentation de taille change la structure des possibles.
Dans notre cas :
• Un petit modèle ne peut représenter que des corrélations locales.
• Un immense modèle, avec attention globale et entraînement massif, capture des relations abstraites (presque comme des règles implicites de logique et de grammaire).

✅ 4. Mais est-ce une vraie « compréhension » ?
Non. Le saut qualitatif n’est pas vers la conscience, mais vers une illusion de compréhension fonctionnelle :
• L’IA manipule mieux les symboles → elle paraît intelligente.
• Mais elle ne perçoit pas, n’éprouve pas.
💡 Question clé : Ce phénomène pourrait-il continuer ? Y aura-t-il un autre seuil où un modèle deviendra capable d’auto-réflexion, voire de conscience minimale ?
Veux-tu que je développe les scénarios possibles de ce prochain saut qualitatif, et ce qu’il faudrait pour que « la compréhension réelle » apparaisse ?

_____________
➔ Moi : Peut-être, mais avant cela j’aimerais savoir si on a pu situer la taille critique à partir de laquelle les capacités émergentes dont tu parles apparaissent.

➔ GPT : Très bonne question ! Oui, plusieurs recherches récentes (notamment chez OpenAI, DeepMind, Anthropic) ont tenté de repérer ce seuil critique où des capacités émergent.

✅ 1. Qu’entend-on par capacités émergentes ?
Ce sont des compétences non présentes dans les petits modèles, mais qui apparaissent brutalement quand la taille (paramètres + données + puissance de calcul) dépasse un seuil.
Exemples :
• Résolution de problèmes mathématiques complexes.
• Traduction interlangue sans entraînement spécifique (zero-shot translation).
• Chaînes de raisonnement logique (chain-of-thought).

✅ 2. Les observations (approximatives)
• GPT-2 (2019) : 1,5 milliard de paramètres → très bon pour compléter des phrases, mais incapable de raisonner.
• GPT-3 (2020) : 175 milliards → apparition du few-shot learning, compréhension implicite des instructions.
• PaLM (2022) : 540 milliards → amélioration nette des compétences mathématiques et logiques.
• GPT-4 (2023) : taille exacte non publique, mais probablement dans la tranche des trillions de paramètres + meilleure optimisation → capacités quasi « généralistes ».

✅ 3. La loi de scaling
Les chercheurs (Kaplan et al., 2020) ont montré que la performance des LLM suit une loi de puissance :

Plus on augmente données + taille + compute, plus l’erreur diminue de façon prévisible…
… mais les capacités émergentes ne suivent pas une courbe lisse : elles surgissent par sauts.

✅ 4. Où est la taille critique ?
On ne peut pas donner un chiffre exact (ça dépend des tâches), mais :
• Pour la compréhension linguistique simple : quelques milliards de paramètres suffisent.
• Pour les capacités complexes (raisonnement, traduction, logique) : centaines de milliards.
• Pour la « généralisation massive » (GPT-4, Gemini Ultra) : probablement plusieurs trillions de paramètres + techniques avancées (RLHF, multimodalité).

Certains chercheurs parlent de phénomènes de phase, comme en physique :
En dessous d’un seuil → rien.
Au-dessus → apparition soudaine de nouvelles propriétés.

💡 Question fascinante : est-ce que ces seuils continueront indéfiniment à donner de nouvelles capacités, ou bien va-t-on atteindre un plateau ?
DeepMind a déjà noté que l’échelle seule ne suffit plus : il faudra aussi nouvelles architectures, mémoire externe, interaction avec le monde.

Veux-tu que je poursuive sur les hypothèses pour le prochain saut qualitatif (vers une IA plus proche d’une compréhension réelle) ? Ou qu’on explore le lien entre ces seuils et la théorie philosophique de l’émergence ?
_____________
➔ Moi : Plutôt qu’on explore le lien entre ces seuils et la théorie philosophique de l’émergence

➔ GPT : Excellent choix, Philippe. Ce lien entre seuils critiques et émergence est un des points les plus fascinants où la philosophie rencontre la science contemporaine.

✅ 1. Qu’est-ce que l’émergence en philosophie ?
L’émergence, c’est l’idée que certaines propriétés d’un système apparaissent seulement à un certain niveau d’organisation, et qu’elles ne sont pas réductibles à la simple somme des parties.
Exemples classiques :
• L’humide n’existe pas dans une molécule d’eau, mais apparaît dans un ensemble.
• La vie ne se réduit pas à la chimie brute (bien qu’elle en dépende).
• La conscience n’est pas présente dans un neurone isolé.

Hegel (et Engels après lui) parle de passage du quantitatif au qualitatif : « Des changements quantitatifs accumulés entraînent un changement qualitatif »
(Science de la Logique).

✅ 2. Ce qui se passe avec les IA
Les modèles de langage illustrent parfaitement ce principe :
• En dessous d’un certain seuil, ils imitent, sans cohérence.
• Au-delà, surgissent des capacités inédites : raisonnement logique, résolution créative, auto-explication.

Ces capacités ne sont pas codées explicitement par les ingénieurs. Elles émergent spontanément de l’entraînement et de l’architecture, une fois que la complexité est suffisante.

C’est exactement ce que les philosophes appellent propriétés émergentes fortes :
• Dépendantes des éléments (poids neuronaux, connexions),
• Mais non déductibles directement des règles de base.

✅ 3. Lien avec la notion d’« irréductibilité »
Les propriétés émergentes sont nouvelles : elles ne peuvent pas être prédites en observant les composants isolés.
Exemple : Un ingénieur observant 10 millions de paramètres ne peut pas deviner que, à 175 milliards, la machine fera des analogies créatives.

En IA, cela crée une imprévisibilité radicale :
• Nous savons que « plus gros » donne « meilleur »,
• Mais nous ne savons pas quelle capacité surgira (traduction spontanée, raisonnement arithmétique, etc.).

✅ 4. Différence avec la conscience
Philosophiquement, il y a débat :
• Ces émergences en IA sont fonctionnelles (capacités),
• Pas ontologiques (pas de vécu subjectif).
La conscience humaine est souvent vue comme une émergence forte qualitative, alors que les LLM restent dans l’ordre des simulations statistiques.

🔍 Question cruciale :

L’émergence en IA est-elle vraiment comparable à celle du vivant et de la conscience, ou bien est-ce une métaphore ?
Autrement dit :
• Les IA franchissent des seuils de complexité → nouvelles compétences,
• Mais auront-elles jamais des propriétés phénoménales (qualia, subjectivité) ?
Ou resteront-elles des machines syntaxiques, aussi puissantes soient-elles ?

👉 Veux-tu que je développe les deux thèses principales sur cette question
(1. émergence forte possible → IA consciente un jour,
2. IA restera toujours sans intériorité),
et ce que disent les philosophes et scientifiques actuels ?

_____________
➔ Moi : Oui mais avant juste une question :
Est-ce la première fois qu’on observe des phénomènes émergents dans une machine construite par les humains ?

➔ GPT : Super question, Philippe ! Non, ce n’est pas la première fois, mais c’est sans doute le cas le plus spectaculaire et le plus proche des phénomènes émergents du vivant.

✅ 1. Autres exemples d’émergence dans des systèmes artificiels
• Réactions chimiques auto-organisées (Belousov-Zhabotinsky) : des motifs complexes apparaissent dans des milieux chimiques préparés par l’homme.
• Cellular automata (ex. le Jeu de la Vie de Conway) : règles très simples → motifs auto-répétitifs, « créatures » qui se déplacent.
• Colonies de robots simples : interactions locales → comportements collectifs imprévus (swarm robotics).
• Internet et réseaux sociaux : des comportements collectifs humains/algorithmiques émergent sans planification (mèmes, viralité).
• Écosystèmes simulés : évolution artificielle → apparition spontanée de stratégies.

✅ 2. Pourquoi les IA de type LLM sont spéciales ?
Dans les cas ci-dessus, l’émergence est visuelle ou comportementale.
Avec les modèles de langage :
• L’émergence touche à des capacités cognitives (raisonnement, traduction, créativité) qu’on pensait liées à l’intelligence humaine.
• Elles ne sont pas codées explicitement : personne n’a dit « si tu as 175 milliards de paramètres, commence à faire des analogies ».
• Cela se produit par auto-organisation statistique à une échelle massive.

En d’autres termes :
👉 Pour la première fois, une machine conçue par l’humain manifeste des propriétés cognitives émergentes (sans qu’on les programme).
Cela bouleverse l’idée classique selon laquelle « une machine ne fait que ce qu’on lui dit de faire ».

A propos des LLM (8 /10)

Je vais arrêter après le prochain billet, cette première série de réflexions sur les LLM tels qu’ils sont apparus à partir, disons, de l’arrivée de Chat GPT4 et sur les réactions qu’ils ont suscitées.
Je me suis étonnés de la plupart de ces réactions et surtout étonné du manque d’étonnement de ceux que j’ai appelés les « minimiseurs », ces experts enfermés dans une sorte de déni : « non, il ne se passe rien d’important ».
Je vais essayer maintenant, au contraire, de m’étonner de ce qui se passe, d’explorer ce que cela remet en cause, de comprendre la nature du changement de paradigme qui se manifeste.
Un phénomène s’est produit dans des machines qui ne s’était sans doute jamais produit avant. Un phénomène qui a surpris ceux ( les ingénieurs) qui l’ont provoqué en essayant d’améliorer leurs systèmes.
Un phénomène que l’on peut clairement qualifier d’émergent : l’apparition de capacités cognitives qui ne sont pas explicitement codées par les concepteurs des machines.
Et qui apparaît dans un certain type d’architecture des machines, mais à partir d’une certaine taille. Autrement dit un phénomène qualitatif résultant d’un changement quantitatif.
Un phénomène qui contredit l’idée qu’une machine ne peut faire que ce que les humains qui l’ont fabriquée ont prévu qu’elle fasse.
Je vais donc exploré les implications de ce phénomène étonnant (encore une fois).
Mais pas trop les implications sociales ou sociétales, possiblement très négatives ( du type société de surveillance grâce à la reconnaissance faciales, armes autonomes, etc…).
Je vais plutôt m’intéresser aux implications philosophiques et scientifiques du fait que des machines « manipulent du sens ».
Qu’est-ce que cela doit faire bouger dans les sciences cognitives et celles du langage, par exemple.
Mais avant cela un dernier billet qui fait entrer Chat GPT dans le game.

À propos des LLM (7 sur 10)

Pourquoi la plupart des conférenciers que j’ai entendus étaient-ils si négatifs sur les « intelligences artificielles » ? Si acharnés à minimiser leurs capacités ?
Pourquoi évitent-ils à tout prix de dire qu’une frontière a été franchie de manière étonnante ?

Je propose ici, de manière ludique, 4 hypothèses pour expliquer ces réactions :

-1- Première hypothèse : Les experts pensent qu’il faut absolument tenir le grand public éloigné d’une attitude de trop grande fascination devant les IA langagières qui conduirait ce malheureux grand public à leur faire trop confiance ou à croire qu’elles détiennent « La Vérité », voire qu’elles sont douées de conscience.
Faisons crédit aux experts du noble désir d’être les gardiens de la raison et de vouloir protéger les « non-sachants » d’illusions dangereuses. Mais ces motivations citoyennes ne sont-elles pas mêlées à d’autres, peut-être moins conscientes, voire moins honorables ?

-2- Deuxième hypothèse : mortifiés d’avoir été largement dépassés par les américains, les chercheurs français minimisent l’importance des IA. Vexés quoi.
Plus généralement, la recherche publique, totalement distancée par la recherche privée (une distance qui se mesure en milliards de dollars) n’a-t-elle pas tendance à vouloir discréditer un domaine qui lui échappe ? Voir cet article du Monde.

-3- Troisième hypothèse : plus personne ne « croit au progrès ». Aujourd’hui, marcher sur la Lune pour la première fois ne ferait plus un tabac. Sauf si un ou une influenceuse était dans le coup.
Plus personne ne placent d’espoir dans le numérique, y compris ceux qui avaient rêvé d’un monde meilleur avec la naissance d’Internet. Nous sommes tout à fait désabusés et nous entrevoyons pour les IA un avenir semblable à celui des réseaux sociaux, en pire (même s’il n’est pas question d’arrêter de nous en servir). Ces IA vont nous rendre dépendants, paresseux du cerveau et nous priver de libertés (surveillance…).
Et les jeunes qui sont sur leur téléphones toute la journée disent majoritairement qu’ils auraient préférer vivre avant Internet.
L’avis des experts eux-mêmes est empreint de ce pessimisme.

– 4 – Quatrième hypothèse : Freud a décrit 3 grandes blessures narcissiques qui ont marqué l’histoire de l’humanité. Elles ont été provoquées par Copernic, puis par Darwin, puis par lui-même.

Chat GPT & consorts serait la quatrième grande blessure : nous avons créé des machines qui manient le langage souvent aussi bien que nous, parfois même nettement mieux.

Mais c’était quand même le propre de l’homme le fait de parler, de manier le langage, nom d’une pipe ! C’était ce qui nous distinguait de tous les êtres vivants et nous plaçait au sommet de la Création.
Et voilà qu’une machine est capable de produire des textes, de les traduire, de les développer ou de les résumer, d’en changer le ton, etc….
Mon dieu ! Mais assister à ça, c’est bien pire que d’apprendre qu’on descend du singe !
Il faut sauver l’exception humaine ! Il faut sauver la notion d’esprit.
 Il faut sauver l’Homme créé à l’image de Dieu, comme dans le livre de la Genèse.

Alors, il faut à tout prix déconsidérer ces IA qui manient trop bien le verbe, les réduire à des perroquets bavards, mais stupides.

À propos des LLM (6 sur 10)

Précisons : je n’ai pas basculé du côté de la magie.
Je ne suis pas en train de dire : « il y a des machines qui pensent comme les humains pensent, ou bien, il y a des machines qui possèdent la même intelligence que celle des humains ».
Je suis bien conscient du fait qu’il n’y a pas d’intention dans les productions de ces systèmes, pas de vécu subjectif, pas de perception du monde. Ils n’ont rien à voir avec des êtres vivants.
Mais c’est justement cela qui doit ouvrir une réflexion nouvelle.
Le propre de l’homme, le langage de type humain est « mécanisable » ?! En tout cas possible à imiter avec une machine numérique.
Il y a de temps en temps des faits nouveaux dans l’histoire de l’humanité qui ouvrent des perspectives nouvelles et qui nous obligent à voir les choses autrement, à opérer des changements de paradigme.
L’histoire dira ce qu’il en est, mais il est fort possible que cet événement en fasse partie.
Il devrait , en tout cas, susciter de nombreuses interrogations, non ?
Sur la nature du langage, par exemple.
Sur la cognition et nos « mécanismes mentaux ».
Sur la possibilité de jouer avec les limites du langage d’une manière nouvelle.
Je termine sur une citation de Georges Steiner :
« Inévitablement, “l’animal doué de langage », comme les Grecs anciens définissaient l’homme, habite les immensités limitées par les frontières des mots et de la grammaire.
Il est possible que la pensée soit en exil.
Mais si c’est le cas, nous ne savons pas, ou, plus précisément nous ne pouvons dire, de quoi elle est exilée. »
Les LLM pourraient-ils, si on les y pousse, nous donner quelques éclairages sur ces territoires inaccessibles desquels nous sommes en exil ?

À propos des LLM (5 sur 10)

Dans ce petit tour d’horizon personnel concernant les façons de considérer les LLM, je suis attiré par une autre approche que je n’ai pas rencontrée dans les conférences auxquelles j’ai assisté.
On peut la situer dans le prolongement de la quatrième, mais en allant plus loin dans une direction précise.
Il s’agit de mieux comprendre ce qui se passe avec les LLM, dans le traitement du langage naturel.
Face à leurs capacités nouvelles et surprenantes dans ce domaine, aussi bien pour interpréter les questions que pour construire des réponses élaborées, on l’a compris, j’ai trouvé un peu léger de se contenter de dire : oui c’est bluffant, mais c’est normal, ces machines ont emmagasiné tellement de données, elles vont chercher le meilleur de ce qui a déjà été dit par des auteurs sur le sujet.
A l’opposé de cette légèreté, un peu d’étonnement ne me paraît pas absurde.
Étonnement qui, comme le disait Socrate, est le déclencheur de l’attitude philosophique.
Mais on n’a pas entendu beaucoup de philosophes avoir une réflexion un peu sérieuse sur les LLM. La plupart se sont empressés de se ranger parmi les « minimiseurs », avec des airs hautains et dédaigneux.

On peut commencer par s’étonner du fait que ces capacités ne sont pas apparues plus tôt.
Après tout, les moteurs de recherche ont depuis longtemps accès à d’immenses quantités de données.
Et par ailleurs, la compréhension du langage naturel humain a fait l’objet de nombreux efforts.
On voit bien pourquoi : cela permet d’automatiser de nombreuses tâches concernant les textes. Ce fut l’un des objectifs principaux des débuts de l’intelligence artificielle depuis les années 60. De multiples stratégies ont été mise en place pour cela : nettoyage des mots vides, repérage des mots clefs, des règles de structure de phrase, enrichissement du lexique, …..
Parmi les outils interactifs, le programme Eliza a laissé un grand souvenir. Il était capable -en reconnaissant des formes de phrase et des mots clefs- de relancer un interlocuteur cherchant un soutien psychologique, le tout étant inspiré de la psychothérapie rogérienne.
Mais malgré ces efforts, la « compréhension » du langage naturel humain n’a pas été atteinte avant les LLM qui ont apporté un changement radical, un saut qualitatif fondamental.
A partir de 2018-2019, l’architecture des LLM a commencer à se dessiner avec Bert.
Les systèmes capables de comprendre, générer, dialoguer naturellement ont émergé durant l’année 2020 (GPT‑3), puis se sont démocratisés au second semestre 2022 via ChatGPT.
Pour le grand public, le phénomène a explosé, à partir de 2023 -2024.
Il s’est donc passé quelque chose autour de 2020.
Des machines capables de produire l’équivalent de la compréhension naturelle du langage, autrement dit de converser, sont apparues.
La conversation, c’était le propre de l’Homme avec un grand H, non ? La pierre de touche de l’humain…
Je vais continuer à m’étonner. D’abord de ce fait. Et puis du peu d’étonnement que cela suscite chez ceux qui sont censés réfléchir.

À propos des LLM (4 sur 10)

Respirons un peu avec autre façon d’aborder les LLM qui sera ici résumée par la formulation d’un chercheur dans un mail à l’occasion d’un séminaire :
“Lorsque les philosophes et les scientifiques ont étudié l’esprit, ce fut souvent avec le présupposé que l’objet de leur étude était, avant tout, l’esprit humain. Les autres esprits biologiques – animaux – ont longtemps été négligés ou sous-estimés, même s’ils ont été l’objet d’un intérêt croissant au cours des dernières décennies. Plus récemment, les progrès frappants de l’intelligence artificielle ont rendu de plus en plus plausible l’idée d’après laquelle certains systèmes artificiels pourraient, dans un futur proche, être considérés comme des esprits. Reconnaître la réalité ou la potentialité de ces esprits variés soulève des questions théoriques et éthiques cruciales.
Ce séminaire réunit des chercheurs de divers domaines venant de la philosophie théorique et pratique, des sciences cognitives et des sciences humaines, afin de présenter leurs travaux sur le thème des esprits non-humains – qu’il s’agisse d’esprits animaux ou d’esprits artificiels.”

Voilà enfin une réaction ouverte qui ne cherche pas à minimiser quoique ce soit et se propose de regarder sous plusieurs angles scientifiques et philosophique ce qui se passe. Elle ne présuppose rien sur les différents types d’”intelligences” et n’hésite pas à prendre en considération de la même façon les fonctionnements “mentaux” des animaux, des humains et des machines.
Elle propose tout simplement de les étudier telles qu’ils apparaissent. Elle utilise pour cela le terme “esprit”, sans plus de précision. Ce qui peut bien sûr faire pousser de hauts cris à ceux qui veulent réserver le terme aux humains en laissant entendre implicitement que dans leur cas le terme est défini avec clarté.

À propos des LLM (3 sur 10)

Venons-en maintenant à des points de vue qu’on pourrait qualifier d’analytiques. sur les LLM, les “Large langage models”. Autrement dit des points de vue de “sachants”, chercheurs dans le domaine numérique ou philosophes réfléchissant à la question des IA.
Précisons encore, on ne va pas parler ici des conséquences sociétales de l’apparition des nouvelles IA, mais plutôt des questions du type « à quoi avons-nous affaire ? ».
D’abord donc le point de vue que j’ai entendu les plus souvent dans des conférences ou ailleurs.
C’est aussi le point de vue qui m’a donné envie de réagir à travers cette petite série. En voici l’idée générale :
un LLM serait un ensemble de procédures standardisées et prédictives, qui visent à engendrer les expressions les plus probables sur la base des moyennes des expressions passées. Les grands modèles de langage fonctionnent donc de manière probabiliste : lorsque vous posez une question à ChatGPT, le logiciel calcule les mots les plus probables venant après les mots de votre requête, un peu comme les logiciels d’auto-complétion des téléphones portables ou des moteurs de recherche, qui complètent automatiquement les messages ou les requêtes en fonction des messages ou des requêtes les plus répandus. Les algorithmes fonctionnent donc en prédisant ce qui a le plus de chances d’arriver dans la phrase en cours d’élaboration, en se fondant sur des moyennes de données passées.
J’ai entendu ce genre de propos, par exemple, dans la bouche d’un spécialiste reconnu, lors d’une conférence, après que le présentateur de la conf. ait cité (comme je l’ai fait moi-même dans des circonstances analogues) une réponse d’un LLM à une question un peu subtile. Réponse particulièrement brillante qui à l’évidence était tout autre chose qu’une « moyenne de données passées ».
Encore une fois, ce premier type de réaction est celui qu’adoptent ou ont adopté beaucoup d’experts au sujet des IA.
Cette attitude est marquée par le souci de minimiser ce qui se passe avec les LLM. On peut la caricaturer avec la formule “circulez, il n’y a rien à voir”. Ou en tout cas rien de bien extraordinaire.
On critiquera dans la suite ce point de vue et on essayera d’examiner les raisons qui peuvent animer les experts qui en sont les tenants.
Pour plus de simplicité, on pourrait les appeler les « minimiseurs ».

« Older posts

© 2025

Theme by Anders NorenUp ↑