Google a présenté une méthode d’IA compacte

Google a présenté un nouvel algorithme appelé TurboQuant, capable de réduire jusqu'à six fois l'utilisation de la mémoire des grands modèles de langage. Selon l'entreprise, cette méthode préserve la précision et n'affecte pas sensiblement les performances, ce qui pourrait rendre les systèmes d'IA moins coûteux et plus faciles à exploiter. À ce sujet Tech.onliner.by rapporte.
La cible principale de TurboQuant est le cache sur lequel les modèles de langage s'appuient pendant les conversations. Ce cache stocke des données importantes afin que le système n'ait pas à répéter les mêmes calculs. Mais à mesure que le dialogue d'un utilisateur s'allonge, le cache s'agrandit aussi, ce qui peut ralentir les réponses et accroître les exigences matérielles.
Google a indiqué que TurboQuant fonctionne en plusieurs étapes en compressant les données stockées et en corrigeant les erreurs introduites pendant ce processus. L'algorithme est conçu pour réduire en même temps la pression sur la mémoire et les coûts de calcul. Un autre point clé est qu'il peut être appliqué aux modèles existants sans entraînement supplémentaire.
Cette avancée pourrait être particulièrement utile pour les outils d'IA fonctionnant sur les smartphones et d'autres appareils aux ressources limitées. Si TurboQuant est largement adopté, il pourrait aider à réduire les coûts d'exploitation des services d'IA tout en rendant les modèles avancés plus pratiques sur des équipements plus petits et moins puissants.
Lisez “Zamin” sur Telegram !