L'IA ne pense-t-elle pas vraiment ? Des scientifiques révèlent le secret des chaînes de raisonnement

23:24 / 27.06.2026·43·Technologie

Récemment, les grands modèles de raisonnement (LRM) tels qu'OpenAI o1 et DeepSeek R1 ont stupéfié le monde par leur capacité apparente à penser comme des humains. Cependant, un nouveau travail scientifique publié par des chercheurs de l'Université d'Arizona, dirigés par Subbarao Kambhampati, remet en question ces perceptions. Selon les scientifiques, les longues « chaînes de pensée » (Chain of Thought — CoT) des réseaux neuronaux ne sont pas de véritables processus cognitifs, mais de simples manipulations statistiques. C'est ce qu'indique Ixbt.com dans son article.

Selon les chercheurs, les séquences logiques générées par les systèmes d'intelligence artificielle (IA) modernes créent chez l'utilisateur l'illusion convaincante qu'un processus intellectuel est à l'œuvre. En réalité, ces modèles basés sur l'architecture Transformer se contentent de prédire statistiquement le prochain token (fragment de mot) en fonction du contexte précédent. Assimiler ce processus au mécanisme de conclusion logique humain est considéré comme scientifiquement incorrect.

Le moment « Eurêka » : une simple imitation

L'étude accorde une attention particulière à l'utilisation par les modèles d'IA d'expressions telles que « Aha-moment », suggérant qu'ils auraient soudainement compris le problème (ex: « Ah, je comprends maintenant »). Les scientifiques affirment qu'il ne s'agit pas d'un changement qualitatif dans les calculs internes du réseau neuronal, mais d'une simple imitation du style humain présent dans les données d'entraînement. D'un point de vue technique, ces systèmes sont optimisés uniquement pour la réponse finale correcte, et les chaînes intermédiaires ne subissent aucune vérification sémantique.

Selon ixbt.com, les chercheurs ont utilisé des tâches mathématiques, comme la sortie de labyrinthes et la recherche du chemin le plus court, pour prouver leurs hypothèses. Un résultat inattendu a été enregistré lors des expériences : les modèles ont continué à trouver la bonne réponse même lorsque la chaîne d'explications logiques était délibérément incorrecte ou confuse. Cela montre que le système ne « lit » pas ses propres raisonnements, mais les utilise simplement comme un modèle statistique supplémentaire.

Un autre cas intéressant a été observé dans l'expérience appelée « no-maze instances ». Ici, l'IA s'est vu confier une tâche de labyrinthe extrêmement simple, sans aucun obstacle. Malgré cela, les modèles ont généré plusieurs pages de « raisonnements ». Ce cas infirme l'idée que la longueur du raisonnement reflète la puissance de calcul ou la complexité. Les textes longs ne sont qu'un artefact statistique résultant du fait que les problèmes complexes dans la base d'entraînement sont accompagnés d'explications longues.

Le « théâtre du raisonnement » et ses risques

Les scientifiques mettent en garde le domaine de l'intelligence artificielle contre le piège du « théâtre du raisonnement ». Les explications convaincantes fournies par les systèmes peuvent susciter une fausse confiance (false trust) chez les utilisateurs. Cela est particulièrement dangereux dans des domaines tels que la médecine, l'ingénierie et le droit, car l'humain ne peut physiquement pas vérifier en temps réel des dizaines de pages de chaînes logiques générées par la machine.

Les auteurs de l'étude proposent l'approche LLM-Modulo comme alternative. Dans ce cadre, les modèles de langage sont utilisés uniquement comme générateurs d'hypothèses, dont l'exactitude est vérifiée par des algorithmes externes mathématiquement rigoureux. La conclusion principale est qu'il faut cesser d'anthropomorphiser les modèles d'IA et évaluer leur qualité non pas par leur « discours interne », mais par des résultats pouvant être vérifiés indépendamment.