Mois : mars 2025

À propos des LLM (9 sur 10)

Je copie donc ici une conversation (plus longue que les autres articles de cette série) avec Chat GPT qui porte en partie sur les questions abordée dans les billets précédents.
Cet échange resitue aussi un peu l’évolution des modèles de langage.
Chat GPT se montre très modeste et prudent au début, jouant presque le rôle d’un « minimiseur », mais il devient plus direct ensuite.
On remarquera son emploi du mot « nous » : avec ce « nous », il se met dans le même camp que les humains.
Voici la conversation :

➔ Moi : Depuis quand, les machines informatiques, sont-elles capables de comprendre le langage naturel humain ?

➔ GPT : Excellente question ! Cela dépend de ce qu’on entend par « comprendre ».
Les grandes étapes :
1. Années 1950-1960 : les premiers essais
• Alan Turing (1950) propose le Test de Turing pour évaluer si une machine peut « penser ».
• Programmes comme ELIZA (1966) simulent une conversation, mais sans véritable compréhension (simple correspondance de motifs).
2. Années 1980-1990 : systèmes experts et bases de règles
• Les ordinateurs analysent le langage via des règles grammaticales. C’est très limité : pas de compréhension contextuelle.
3. Années 2000 : statistique et apprentissage automatique
• On passe aux modèles probabilistes (ex. n-grams). Les systèmes deviennent meilleurs pour prédire des mots, mais sans « sens réel ».
4. Depuis 2017 : révolution avec les réseaux de neurones et le deep learning
• L’arrivée des Transformers (article Attention is All You Need, 2017) change tout.
• Ces modèles apprennent à partir de gigantesques corpus pour saisir des relations contextuelles entre les mots.
5. 2022-2023 : modèles de type Chat➔ GPT
• Les IA comme GPT-3, GPT-4 atteignent une compréhension pragmatique : elles peuvent interpréter, raisonner, générer des réponses cohérentes et nuancées.


👉 Donc, « comprendre » au sens humain ? Pas encore.
Les machines manipulent des structures linguistiques avec une approximation statistique très puissante, mais elles n’ont pas de conscience ni d’intentions.
Veux-tu que je t’explique pourquoi ces modèles donnent l’impression de comprendre, alors qu’ils ne « comprennent » pas comme nous ?
_____________
➔ Moi : Oui
➔ GPT : Parfait, entrons dans le cœur du sujet !

Pourquoi ces modèles semblent comprendre ?
1. Ils capturent les régularités du langageLes modèles comme GPT ont été entraînés sur des milliards de textes. Ils apprennent des corrélations statistiques entre les mots, phrases et concepts.
➡ Quand tu poses une question, ils ne savent pas ce qu’elle « signifie » au sens humain, mais ils savent quelles réponses sont les plus probables dans ce contexte.

2. Le contexte leur donne une « mémoire » locale

Les architectures modernes (Transformers) utilisent un mécanisme d’attention qui analyse l’ensemble de la phrase, du paragraphe, voire d’un dialogue.
➡ Cela leur permet de donner des réponses cohérentes et adaptées au fil de la conversation, ce qui renforce l’illusion de compréhension.

3. Ils réutilisent des connaissances intégrées

Ces modèles ont absorbé une immense quantité de faits, raisonnements et exemples.
➡ Quand ils répondent à une question scientifique, ils paraissent « savoir », mais en réalité, ils reproduisent des schémas vus ailleurs et les combinent.

4. Ils imitent les structures de la pensée humaine

Le langage étant notre outil principal pour exprimer la pensée, bien le manipuler donne l’impression de penser.
➡ Mais c’est une simulation, pas une conscience : il n’y a pas d’intention, pas de perception du monde, pas de vécu subjectif.

Conclusion : illusion d’intelligence
Ce qu’on appelle « compréhension » chez ces machines, c’est une compétence prédictive extrêmement avancée.
Elles sont formidables pour traiter des symboles, mais elles ne savent pas ce que signifient les symboles dans le monde réel.

Veux-tu que je pousse plus loin en expliquant ce qui manquerait à une machine pour vraiment « comprendre » comme un humain ? (Indice : ça touche à la conscience, au corps, et à la signification.)

_____________
➔ Moi : La révolution dont tu parles plus haut avec l’arrivée des Transformers et de ChatGPT en 2022-2023 est un saut qualitatif énorme dans la «compréhension» par les machines du langage. Il est lié à la taille des machines elles-même et des bases de données
Mais comment expliquer qu’un changement quantitatif puisse produire un saut qualitatif ?

➔ GPT : Excellente question : comment un simple changement de quantité (plus de données, plus de paramètres) peut-il produire un changement de qualité ?
C’est une question à la fois technique et philosophique, et elle renvoie à un principe bien connu : l’émergence.

✅ 1. Le principe d’émergence
Un saut qualitatif survient quand, au-delà d’un certain seuil, la complexité des interactions crée des propriétés nouvelles qui n’existaient pas à une échelle plus simple.
Exemples :
• L’eau : H₂ + O → vapeur, mais H₂O liquide à une certaine température → propriété émergente.
• Le cerveau : un neurone ne « pense » pas, mais des milliards en réseau font émerger la conscience.

Dans le cas des IA :
• Quelques millions de paramètres → incapable de saisir le contexte.
• Des centaines de milliards → le modèle capture des corrélations linguistiques profondes, comme la grammaire implicite ou les structures logiques.

✅ 2. Pourquoi ce seuil avec les Transformers ?
Le changement n’est pas seulement plus de données, mais une architecture nouvelle :
• Les Transformers utilisent l’attention : chaque mot « regarde » tous les autres dans le contexte.
• Avec beaucoup de paramètres et de données, ce mécanisme peut représenter des relations très complexes entre concepts.

Résultat :
• En dessous d’une certaine taille, le modèle ne « généralise » pas.
• Au-dessus d’un seuil (ex. GPT-3 → GPT-4), il développe des capacités émergentes : raisonnement, traduction, explications…

✅ 3. Lien avec la philosophie : le quantitatif devient qualitatif
C’est une idée chère à Hegel (et reprise par Engels) :

À partir d’un certain point, une accumulation quantitative entraîne une transformation qualitative.
Cela se produit quand :
• Les interactions deviennent non-linéaires.
• L’augmentation de taille change la structure des possibles.
Dans notre cas :
• Un petit modèle ne peut représenter que des corrélations locales.
• Un immense modèle, avec attention globale et entraînement massif, capture des relations abstraites (presque comme des règles implicites de logique et de grammaire).

✅ 4. Mais est-ce une vraie « compréhension » ?
Non. Le saut qualitatif n’est pas vers la conscience, mais vers une illusion de compréhension fonctionnelle :
• L’IA manipule mieux les symboles → elle paraît intelligente.
• Mais elle ne perçoit pas, n’éprouve pas.
💡 Question clé : Ce phénomène pourrait-il continuer ? Y aura-t-il un autre seuil où un modèle deviendra capable d’auto-réflexion, voire de conscience minimale ?
Veux-tu que je développe les scénarios possibles de ce prochain saut qualitatif, et ce qu’il faudrait pour que « la compréhension réelle » apparaisse ?

_____________
➔ Moi : Peut-être, mais avant cela j’aimerais savoir si on a pu situer la taille critique à partir de laquelle les capacités émergentes dont tu parles apparaissent.

➔ GPT : Très bonne question ! Oui, plusieurs recherches récentes (notamment chez OpenAI, DeepMind, Anthropic) ont tenté de repérer ce seuil critique où des capacités émergent.

✅ 1. Qu’entend-on par capacités émergentes ?
Ce sont des compétences non présentes dans les petits modèles, mais qui apparaissent brutalement quand la taille (paramètres + données + puissance de calcul) dépasse un seuil.
Exemples :
• Résolution de problèmes mathématiques complexes.
• Traduction interlangue sans entraînement spécifique (zero-shot translation).
• Chaînes de raisonnement logique (chain-of-thought).

✅ 2. Les observations (approximatives)
• GPT-2 (2019) : 1,5 milliard de paramètres → très bon pour compléter des phrases, mais incapable de raisonner.
• GPT-3 (2020) : 175 milliards → apparition du few-shot learning, compréhension implicite des instructions.
• PaLM (2022) : 540 milliards → amélioration nette des compétences mathématiques et logiques.
• GPT-4 (2023) : taille exacte non publique, mais probablement dans la tranche des trillions de paramètres + meilleure optimisation → capacités quasi « généralistes ».

✅ 3. La loi de scaling
Les chercheurs (Kaplan et al., 2020) ont montré que la performance des LLM suit une loi de puissance :

Plus on augmente données + taille + compute, plus l’erreur diminue de façon prévisible…
… mais les capacités émergentes ne suivent pas une courbe lisse : elles surgissent par sauts.

✅ 4. Où est la taille critique ?
On ne peut pas donner un chiffre exact (ça dépend des tâches), mais :
• Pour la compréhension linguistique simple : quelques milliards de paramètres suffisent.
• Pour les capacités complexes (raisonnement, traduction, logique) : centaines de milliards.
• Pour la « généralisation massive » (GPT-4, Gemini Ultra) : probablement plusieurs trillions de paramètres + techniques avancées (RLHF, multimodalité).

Certains chercheurs parlent de phénomènes de phase, comme en physique :
En dessous d’un seuil → rien.
Au-dessus → apparition soudaine de nouvelles propriétés.

💡 Question fascinante : est-ce que ces seuils continueront indéfiniment à donner de nouvelles capacités, ou bien va-t-on atteindre un plateau ?
DeepMind a déjà noté que l’échelle seule ne suffit plus : il faudra aussi nouvelles architectures, mémoire externe, interaction avec le monde.

Veux-tu que je poursuive sur les hypothèses pour le prochain saut qualitatif (vers une IA plus proche d’une compréhension réelle) ? Ou qu’on explore le lien entre ces seuils et la théorie philosophique de l’émergence ?
_____________
➔ Moi : Plutôt qu’on explore le lien entre ces seuils et la théorie philosophique de l’émergence

➔ GPT : Excellent choix, Philippe. Ce lien entre seuils critiques et émergence est un des points les plus fascinants où la philosophie rencontre la science contemporaine.

✅ 1. Qu’est-ce que l’émergence en philosophie ?
L’émergence, c’est l’idée que certaines propriétés d’un système apparaissent seulement à un certain niveau d’organisation, et qu’elles ne sont pas réductibles à la simple somme des parties.
Exemples classiques :
• L’humide n’existe pas dans une molécule d’eau, mais apparaît dans un ensemble.
• La vie ne se réduit pas à la chimie brute (bien qu’elle en dépende).
• La conscience n’est pas présente dans un neurone isolé.

Hegel (et Engels après lui) parle de passage du quantitatif au qualitatif : « Des changements quantitatifs accumulés entraînent un changement qualitatif »
(Science de la Logique).

✅ 2. Ce qui se passe avec les IA
Les modèles de langage illustrent parfaitement ce principe :
• En dessous d’un certain seuil, ils imitent, sans cohérence.
• Au-delà, surgissent des capacités inédites : raisonnement logique, résolution créative, auto-explication.

Ces capacités ne sont pas codées explicitement par les ingénieurs. Elles émergent spontanément de l’entraînement et de l’architecture, une fois que la complexité est suffisante.

C’est exactement ce que les philosophes appellent propriétés émergentes fortes :
• Dépendantes des éléments (poids neuronaux, connexions),
• Mais non déductibles directement des règles de base.

✅ 3. Lien avec la notion d’« irréductibilité »
Les propriétés émergentes sont nouvelles : elles ne peuvent pas être prédites en observant les composants isolés.
Exemple : Un ingénieur observant 10 millions de paramètres ne peut pas deviner que, à 175 milliards, la machine fera des analogies créatives.

En IA, cela crée une imprévisibilité radicale :
• Nous savons que « plus gros » donne « meilleur »,
• Mais nous ne savons pas quelle capacité surgira (traduction spontanée, raisonnement arithmétique, etc.).

✅ 4. Différence avec la conscience
Philosophiquement, il y a débat :
• Ces émergences en IA sont fonctionnelles (capacités),
• Pas ontologiques (pas de vécu subjectif).
La conscience humaine est souvent vue comme une émergence forte qualitative, alors que les LLM restent dans l’ordre des simulations statistiques.

🔍 Question cruciale :

L’émergence en IA est-elle vraiment comparable à celle du vivant et de la conscience, ou bien est-ce une métaphore ?
Autrement dit :
• Les IA franchissent des seuils de complexité → nouvelles compétences,
• Mais auront-elles jamais des propriétés phénoménales (qualia, subjectivité) ?
Ou resteront-elles des machines syntaxiques, aussi puissantes soient-elles ?

👉 Veux-tu que je développe les deux thèses principales sur cette question
(1. émergence forte possible → IA consciente un jour,
2. IA restera toujours sans intériorité),
et ce que disent les philosophes et scientifiques actuels ?

_____________
➔ Moi : Oui mais avant juste une question :
Est-ce la première fois qu’on observe des phénomènes émergents dans une machine construite par les humains ?

➔ GPT : Super question, Philippe ! Non, ce n’est pas la première fois, mais c’est sans doute le cas le plus spectaculaire et le plus proche des phénomènes émergents du vivant.

✅ 1. Autres exemples d’émergence dans des systèmes artificiels
• Réactions chimiques auto-organisées (Belousov-Zhabotinsky) : des motifs complexes apparaissent dans des milieux chimiques préparés par l’homme.
• Cellular automata (ex. le Jeu de la Vie de Conway) : règles très simples → motifs auto-répétitifs, « créatures » qui se déplacent.
• Colonies de robots simples : interactions locales → comportements collectifs imprévus (swarm robotics).
• Internet et réseaux sociaux : des comportements collectifs humains/algorithmiques émergent sans planification (mèmes, viralité).
• Écosystèmes simulés : évolution artificielle → apparition spontanée de stratégies.

✅ 2. Pourquoi les IA de type LLM sont spéciales ?
Dans les cas ci-dessus, l’émergence est visuelle ou comportementale.
Avec les modèles de langage :
• L’émergence touche à des capacités cognitives (raisonnement, traduction, créativité) qu’on pensait liées à l’intelligence humaine.
• Elles ne sont pas codées explicitement : personne n’a dit « si tu as 175 milliards de paramètres, commence à faire des analogies ».
• Cela se produit par auto-organisation statistique à une échelle massive.

En d’autres termes :
👉 Pour la première fois, une machine conçue par l’humain manifeste des propriétés cognitives émergentes (sans qu’on les programme).
Cela bouleverse l’idée classique selon laquelle « une machine ne fait que ce qu’on lui dit de faire ».

A propos des LLM (8 /10)

Je vais arrêter après le prochain billet, cette première série de réflexions sur les LLM tels qu’ils sont apparus à partir, disons, de l’arrivée de Chat GPT4 et sur les réactions qu’ils ont suscitées.
Je me suis étonnés de la plupart de ces réactions et surtout étonné du manque d’étonnement de ceux que j’ai appelés les « minimiseurs », ces experts enfermés dans une sorte de déni : « non, il ne se passe rien d’important ».
Je vais essayer maintenant, au contraire, de m’étonner de ce qui se passe, d’explorer ce que cela remet en cause, de comprendre la nature du changement de paradigme qui se manifeste.
Un phénomène s’est produit dans des machines qui ne s’était sans doute jamais produit avant. Un phénomène qui a surpris ceux ( les ingénieurs) qui l’ont provoqué en essayant d’améliorer leurs systèmes.
Un phénomène que l’on peut clairement qualifier d’émergent : l’apparition de capacités cognitives qui ne sont pas explicitement codées par les concepteurs des machines.
Et qui apparaît dans un certain type d’architecture des machines, mais à partir d’une certaine taille. Autrement dit un phénomène qualitatif résultant d’un changement quantitatif.
Un phénomène qui contredit l’idée qu’une machine ne peut faire que ce que les humains qui l’ont fabriquée ont prévu qu’elle fasse.
Je vais donc exploré les implications de ce phénomène étonnant (encore une fois).
Mais pas trop les implications sociales ou sociétales, possiblement très négatives ( du type société de surveillance grâce à la reconnaissance faciales, armes autonomes, etc…).
Je vais plutôt m’intéresser aux implications philosophiques et scientifiques du fait que des machines « manipulent du sens ».
Qu’est-ce que cela doit faire bouger dans les sciences cognitives et celles du langage, par exemple.
Mais avant cela un dernier billet qui fait entrer Chat GPT dans le game.

À propos des LLM (7 sur 10)

Pourquoi la plupart des conférenciers que j’ai entendus étaient-ils si négatifs sur les « intelligences artificielles » ? Si acharnés à minimiser leurs capacités ?
Pourquoi évitent-ils à tout prix de dire qu’une frontière a été franchie de manière étonnante ?

Je propose ici, de manière ludique, 4 hypothèses pour expliquer ces réactions :

-1- Première hypothèse : Les experts pensent qu’il faut absolument tenir le grand public éloigné d’une attitude de trop grande fascination devant les IA langagières qui conduirait ce malheureux grand public à leur faire trop confiance ou à croire qu’elles détiennent « La Vérité », voire qu’elles sont douées de conscience.
Faisons crédit aux experts du noble désir d’être les gardiens de la raison et de vouloir protéger les « non-sachants » d’illusions dangereuses. Mais ces motivations citoyennes ne sont-elles pas mêlées à d’autres, peut-être moins conscientes, voire moins honorables ?

-2- Deuxième hypothèse : mortifiés d’avoir été largement dépassés par les américains, les chercheurs français minimisent l’importance des IA. Vexés quoi.
Plus généralement, la recherche publique, totalement distancée par la recherche privée (une distance qui se mesure en milliards de dollars) n’a-t-elle pas tendance à vouloir discréditer un domaine qui lui échappe ? Voir cet article du Monde.

-3- Troisième hypothèse : plus personne ne « croit au progrès ». Aujourd’hui, marcher sur la Lune pour la première fois ne ferait plus un tabac. Sauf si un ou une influenceuse était dans le coup.
Plus personne ne placent d’espoir dans le numérique, y compris ceux qui avaient rêvé d’un monde meilleur avec la naissance d’Internet. Nous sommes tout à fait désabusés et nous entrevoyons pour les IA un avenir semblable à celui des réseaux sociaux, en pire (même s’il n’est pas question d’arrêter de nous en servir). Ces IA vont nous rendre dépendants, paresseux du cerveau et nous priver de libertés (surveillance…).
Et les jeunes qui sont sur leur téléphones toute la journée disent majoritairement qu’ils auraient préférer vivre avant Internet.
L’avis des experts eux-mêmes est empreint de ce pessimisme.

– 4 – Quatrième hypothèse : Freud a décrit 3 grandes blessures narcissiques qui ont marqué l’histoire de l’humanité. Elles ont été provoquées par Copernic, puis par Darwin, puis par lui-même.

Chat GPT & consorts serait la quatrième grande blessure : nous avons créé des machines qui manient le langage souvent aussi bien que nous, parfois même nettement mieux.

Mais c’était quand même le propre de l’homme le fait de parler, de manier le langage, nom d’une pipe ! C’était ce qui nous distinguait de tous les êtres vivants et nous plaçait au sommet de la Création.
Et voilà qu’une machine est capable de produire des textes, de les traduire, de les développer ou de les résumer, d’en changer le ton, etc….
Mon dieu ! Mais assister à ça, c’est bien pire que d’apprendre qu’on descend du singe !
Il faut sauver l’exception humaine ! Il faut sauver la notion d’esprit.
 Il faut sauver l’Homme créé à l’image de Dieu, comme dans le livre de la Genèse.

Alors, il faut à tout prix déconsidérer ces IA qui manient trop bien le verbe, les réduire à des perroquets bavards, mais stupides.

À propos des LLM (6 sur 10)

Précisons : je n’ai pas basculé du côté de la magie.
Je ne suis pas en train de dire : « il y a des machines qui pensent comme les humains pensent, ou bien, il y a des machines qui possèdent la même intelligence que celle des humains ».
Je suis bien conscient du fait qu’il n’y a pas d’intention dans les productions de ces systèmes, pas de vécu subjectif, pas de perception du monde. Ils n’ont rien à voir avec des êtres vivants.
Mais c’est justement cela qui doit ouvrir une réflexion nouvelle.
Le propre de l’homme, le langage de type humain est « mécanisable » ?! En tout cas possible à imiter avec une machine numérique.
Il y a de temps en temps des faits nouveaux dans l’histoire de l’humanité qui ouvrent des perspectives nouvelles et qui nous obligent à voir les choses autrement, à opérer des changements de paradigme.
L’histoire dira ce qu’il en est, mais il est fort possible que cet événement en fasse partie.
Il devrait , en tout cas, susciter de nombreuses interrogations, non ?
Sur la nature du langage, par exemple.
Sur la cognition et nos « mécanismes mentaux ».
Sur la possibilité de jouer avec les limites du langage d’une manière nouvelle.
Je termine sur une citation de Georges Steiner :
« Inévitablement, “l’animal doué de langage », comme les Grecs anciens définissaient l’homme, habite les immensités limitées par les frontières des mots et de la grammaire.
Il est possible que la pensée soit en exil.
Mais si c’est le cas, nous ne savons pas, ou, plus précisément nous ne pouvons dire, de quoi elle est exilée. »
Les LLM pourraient-ils, si on les y pousse, nous donner quelques éclairages sur ces territoires inaccessibles desquels nous sommes en exil ?

À propos des LLM (5 sur 10)

Dans ce petit tour d’horizon personnel concernant les façons de considérer les LLM, je suis attiré par une autre approche que je n’ai pas rencontrée dans les conférences auxquelles j’ai assisté.
On peut la situer dans le prolongement de la quatrième, mais en allant plus loin dans une direction précise.
Il s’agit de mieux comprendre ce qui se passe avec les LLM, dans le traitement du langage naturel.
Face à leurs capacités nouvelles et surprenantes dans ce domaine, aussi bien pour interpréter les questions que pour construire des réponses élaborées, on l’a compris, j’ai trouvé un peu léger de se contenter de dire : oui c’est bluffant, mais c’est normal, ces machines ont emmagasiné tellement de données, elles vont chercher le meilleur de ce qui a déjà été dit par des auteurs sur le sujet.
A l’opposé de cette légèreté, un peu d’étonnement ne me paraît pas absurde.
Étonnement qui, comme le disait Socrate, est le déclencheur de l’attitude philosophique.
Mais on n’a pas entendu beaucoup de philosophes avoir une réflexion un peu sérieuse sur les LLM. La plupart se sont empressés de se ranger parmi les « minimiseurs », avec des airs hautains et dédaigneux.

On peut commencer par s’étonner du fait que ces capacités ne sont pas apparues plus tôt.
Après tout, les moteurs de recherche ont depuis longtemps accès à d’immenses quantités de données.
Et par ailleurs, la compréhension du langage naturel humain a fait l’objet de nombreux efforts.
On voit bien pourquoi : cela permet d’automatiser de nombreuses tâches concernant les textes. Ce fut l’un des objectifs principaux des débuts de l’intelligence artificielle depuis les années 60. De multiples stratégies ont été mise en place pour cela : nettoyage des mots vides, repérage des mots clefs, des règles de structure de phrase, enrichissement du lexique, …..
Parmi les outils interactifs, le programme Eliza a laissé un grand souvenir. Il était capable -en reconnaissant des formes de phrase et des mots clefs- de relancer un interlocuteur cherchant un soutien psychologique, le tout étant inspiré de la psychothérapie rogérienne.
Mais malgré ces efforts, la « compréhension » du langage naturel humain n’a pas été atteinte avant les LLM qui ont apporté un changement radical, un saut qualitatif fondamental.
A partir de 2018-2019, l’architecture des LLM a commencer à se dessiner avec Bert.
Les systèmes capables de comprendre, générer, dialoguer naturellement ont émergé durant l’année 2020 (GPT‑3), puis se sont démocratisés au second semestre 2022 via ChatGPT.
Pour le grand public, le phénomène a explosé, à partir de 2023 -2024.
Il s’est donc passé quelque chose autour de 2020.
Des machines capables de produire l’équivalent de la compréhension naturelle du langage, autrement dit de converser, sont apparues.
La conversation, c’était le propre de l’Homme avec un grand H, non ? La pierre de touche de l’humain…
Je vais continuer à m’étonner. D’abord de ce fait. Et puis du peu d’étonnement que cela suscite chez ceux qui sont censés réfléchir.

À propos des LLM (4 sur 10)

Respirons un peu avec autre façon d’aborder les LLM qui sera ici résumée par la formulation d’un chercheur dans un mail à l’occasion d’un séminaire :
“Lorsque les philosophes et les scientifiques ont étudié l’esprit, ce fut souvent avec le présupposé que l’objet de leur étude était, avant tout, l’esprit humain. Les autres esprits biologiques – animaux – ont longtemps été négligés ou sous-estimés, même s’ils ont été l’objet d’un intérêt croissant au cours des dernières décennies. Plus récemment, les progrès frappants de l’intelligence artificielle ont rendu de plus en plus plausible l’idée d’après laquelle certains systèmes artificiels pourraient, dans un futur proche, être considérés comme des esprits. Reconnaître la réalité ou la potentialité de ces esprits variés soulève des questions théoriques et éthiques cruciales.
Ce séminaire réunit des chercheurs de divers domaines venant de la philosophie théorique et pratique, des sciences cognitives et des sciences humaines, afin de présenter leurs travaux sur le thème des esprits non-humains – qu’il s’agisse d’esprits animaux ou d’esprits artificiels.”

Voilà enfin une réaction ouverte qui ne cherche pas à minimiser quoique ce soit et se propose de regarder sous plusieurs angles scientifiques et philosophique ce qui se passe. Elle ne présuppose rien sur les différents types d’”intelligences” et n’hésite pas à prendre en considération de la même façon les fonctionnements “mentaux” des animaux, des humains et des machines.
Elle propose tout simplement de les étudier telles qu’ils apparaissent. Elle utilise pour cela le terme “esprit”, sans plus de précision. Ce qui peut bien sûr faire pousser de hauts cris à ceux qui veulent réserver le terme aux humains en laissant entendre implicitement que dans leur cas le terme est défini avec clarté.

À propos des LLM (3 sur 10)

Venons-en maintenant à des points de vue qu’on pourrait qualifier d’analytiques. sur les LLM, les “Large langage models”. Autrement dit des points de vue de “sachants”, chercheurs dans le domaine numérique ou philosophes réfléchissant à la question des IA.
Précisons encore, on ne va pas parler ici des conséquences sociétales de l’apparition des nouvelles IA, mais plutôt des questions du type « à quoi avons-nous affaire ? ».
D’abord donc le point de vue que j’ai entendu les plus souvent dans des conférences ou ailleurs.
C’est aussi le point de vue qui m’a donné envie de réagir à travers cette petite série. En voici l’idée générale :
un LLM serait un ensemble de procédures standardisées et prédictives, qui visent à engendrer les expressions les plus probables sur la base des moyennes des expressions passées. Les grands modèles de langage fonctionnent donc de manière probabiliste : lorsque vous posez une question à ChatGPT, le logiciel calcule les mots les plus probables venant après les mots de votre requête, un peu comme les logiciels d’auto-complétion des téléphones portables ou des moteurs de recherche, qui complètent automatiquement les messages ou les requêtes en fonction des messages ou des requêtes les plus répandus. Les algorithmes fonctionnent donc en prédisant ce qui a le plus de chances d’arriver dans la phrase en cours d’élaboration, en se fondant sur des moyennes de données passées.
J’ai entendu ce genre de propos, par exemple, dans la bouche d’un spécialiste reconnu, lors d’une conférence, après que le présentateur de la conf. ait cité (comme je l’ai fait moi-même dans des circonstances analogues) une réponse d’un LLM à une question un peu subtile. Réponse particulièrement brillante qui à l’évidence était tout autre chose qu’une « moyenne de données passées ».
Encore une fois, ce premier type de réaction est celui qu’adoptent ou ont adopté beaucoup d’experts au sujet des IA.
Cette attitude est marquée par le souci de minimiser ce qui se passe avec les LLM. On peut la caricaturer avec la formule “circulez, il n’y a rien à voir”. Ou en tout cas rien de bien extraordinaire.
On critiquera dans la suite ce point de vue et on essayera d’examiner les raisons qui peuvent animer les experts qui en sont les tenants.
Pour plus de simplicité, on pourrait les appeler les « minimiseurs ».

À propos des LLM (2 sur 10)


Je continue avec les Grands modèles de langage (les LLM, c’est-à-dire Chat GPT & co), en évoquant brièvement la réaction du grand public
On peut parler sans doute d’un mélange de sidération et d’acceptation passive
Mais une bonne proportion de personnes se contentent de tourner le dos à l’affaire. Trop compliquée, trop baroque, trop loin des chemins connus.
Et une autre partie, plus jeune ne comprend pas beaucoup mieux, mais adopte, accepte et fait comme si c’était normal. Après tout c’est le progrès, comme on disait autrefois.
Mais ce n’est plus le progrès du temps jadis, celui qu’on vivait comme un espoir de jours meilleurs, non, c’est le flux de l’innovation qui fait tourner la société de consommation. Cette locomotive folle dont il faut sans cesse alimenter la chaudière avec des nouveautés pour tirer de plus en plus vite le train d’une société qui ne sait plus qui rien d’elle-même. Sinon qu’il faut continuer à accélérer pour oublier la catastrophe qui vient.
Bon, c’est très sombre ça, mais j’aime bien évoquer « La locomotive folle » de Stanislaw Witkiewicz, une pièce de théâtre dans laquelle j’ai joué, il y a longtemps.
J’aurais pu me contenter de rappeler que les mêmes jeunes qui ne lâchent pas leurs téléphones disent majoritairement qu’ils auraient préféré vivre avant le numérique.
Accélérons !

À propos des LLM (1 sur 10)

Les LLM étant les “Large langage models”, les grands modèles de langage, donc les IA du type Chat GPT.
Je vais essayer dans les prochains billets de résumer un peu ce que j’ai ressenti en découvrant ces LLM, en écoutant plusieurs conférences, voire en en présentant certaines et en me documentant.
J’ai envie de le prendre un peu sur le mode de la comédie, tant ce que j’ai entendu m’a paru parfois en décalage avec la réalité.
Je vais donc passer en revue plusieurs points de vue (regards) très différents sur ces LLM.
En étant conscient que le point de vue de bien des personnes n’est pas tranché ou se révèle hybride.À un moment, elles peuvent voir les IA comme ceci et à un autre comme cela.
Avant d’en arriver à ce que j’ai pu entendre de la part des “sachants”, dans des conférences ou dans des livres, je vais commencer par le point de vue des “marchands” de LLM.
Ce sont souvent aussi les fabricants des LLM, donc en fait des experts. Mais dans la course effrénée à la puissance qui se joue d’emblée entre eux, ces acteurs semblent peu intéressés à jouer ce rôle d’experts qui expliqueraient honnêtement ce qui se passe.
Ils se concentrent sur deux objectifs : rassembler le plus possible de capitaux, le plus vite possible, et empêcher toute réglementation qui pourrait faire obstacle à leur fuite en avant.
Rassembler le plus vite possible des capitaux démesurés parce qu’ils ont constaté que la taille joue un rôle essentiel dans l’efficacité des LLM et parce qu’il faut essayer de faire la course en tête pour avoir plus de chances de… rassembler le plus vite possible des capitaux démesurés.
Cette fuite en avant les conduit à faire des promesses mirifiques, à décrire les intelligences artificielles comme ouvrant des possibilités infinies, merveilleuses et invérifiables.
On a vu par ailleurs récemment qu’ils sont prêts pour cela à des retournements de vestes politiques honteux et humiliants et à soutenir le régime autoritaire, antidémocratique et anti-science de Trump.
Si cet épisode ubuesque de l’histoire des US ne se termine pas trop mal, c’est-à-dire, si le ballon de baudruche finit par éclater au nez de ceux qui s’époumonent à le gonfler, il faudra repasser en boucle le film de ces grands dirigeants léchant les bottes de Trump lors de son intronisation.

© 2025

Theme by Anders NorenUp ↑