Pourquoi l'IA de Google ne peut-elle pas écrire correctement son propre nom ?

La fonction AI Overview dans Google Search commet des erreurs inattendues en comptant les lettres des mots. Par exemple, le système a affirmé que le mot "Google" contenait deux "p", et a épelé "journalism" sous la forme "j-o-u-r-n-a-d-i-s-m", affirmant qu'il contenait deux "d". Même lorsqu'il a correctement identifié que le nom de famille du président américain contient un "p", il l'a écrit "t-r-p-u-m", surprenant les utilisateurs. C'est ce que rapporte Techcrunch.com rapporte .
Ce problème n'est pas nouveau. Google a déjà rencontré des difficultés pour intégrer l'IA générative dans son produit phare vieux de 29 ans. Auparavant, AI Overview citait des publications satiriques conseillant aux utilisateurs de mettre de la colle sur la pizza ou de manger des pierres. Dans une déclaration à TechCrunch, les représentants de l'entreprise ont noté que compter les lettres dans les mots est un défi spécifique pour les LLM (grands modèles de langage) et qu'ils y travaillent.
En fait, les modèles d'IA qui alimentent ChatGPT et Google Search n'ont pas été créés pour comprendre les règles d'orthographe. Au fil des années, avec l'introduction de nouveaux modèles, leur demander combien de "r" contient le mot "strawberry" est devenu une sorte de blague. Ces systèmes, capables de résoudre des problèmes mathématiques complexes ou d'écrire du code en quelques secondes, restent au niveau de la maternelle lorsqu'il s'agit d'analyser des lettres.
La raison réside dans la façon dont l'IA perçoit le texte. Les modèles LLM ne lisent pas le texte lettre par lettre comme les humains. Ils sont basés sur une architecture "transformer" et décomposent le texte en "tokens" (syllabes, mots ou groupes de caractères). L'IA convertit le texte en codes numériques et analyse leur sens contextuel.
Comme l'a expliqué le chercheur Matthew Guzdial de l'Université de l'Alberta, lorsque le système voit le mot "the", il voit le code représentant sa signification, mais il ne sait pas qu'il est composé des lettres "T", "H" et "E". Par conséquent, même si Google Search est entièrement mis à jour, l'IA qu'il contient peine encore à corriger de simples fautes d'orthographe.
Lisez “Zamin” sur Telegram !