La memoria de la IA resulta ineficiente: el proyecto Tenure detecta una tasa de error del 95 %

La memoria de la IA resulta ineficiente: el proyecto Tenure detecta una tasa de error del 95 %

Aunque los asistentes de IA modernos destacan en la escritura de código, el análisis de documentos y el mantenimiento de conversaciones largas, su memoria puede ser mucho peor de lo esperado. Un nuevo estudio realizado por el investigador Jeffrey Flynt de la Universidad de Texas muestra que los sistemas de memoria a largo plazo utilizados para los grandes modelos de lenguaje (LLM) tienen problemas fundamentales. Los sistemas actuales almacenan datos como vectores matemáticos y buscan por similitud semántica, lo que provoca errores graves al encontrar hechos exactos. Informado por Ixbt.com informe .

Según Flynt, los benchmarks existentes crean una ilusión de calidad. Por lo general, se evalúa la respuesta final del modelo, no la calidad de la memoria. Un modelo de lenguaje puede ocultar errores de búsqueda utilizando su conocimiento lógico. Sin embargo, si estos datos se utilizan no para la generación de texto, sino para tareas que requieren precisión, como llamadas a API o configuración de infraestructura, las consecuencias son críticas. La prueba PrecisionMemBench creada por el investigador mostró que la precisión en la búsqueda de hechos en sistemas populares como Mem0, Zep y Hindsight era de solo el 5-8 %.

Para resolver este problema, se propuso el sistema Tenure. Su característica clave es que la búsqueda de memoria se considera no como una tarea de búsqueda, sino como gestión de estado (state management). Tenure utiliza un repositorio estructurado llamado "creencias" (beliefs) en lugar de representaciones semánticas vagas. Cada entrada es un hecho separado con un tipo, un ámbito de aplicación y un estado de relevancia. El sistema rastrea los datos obsoletos y los reemplaza con nueva información, sin mezclar datos de diferentes proyectos.

Tenure abandona la búsqueda vectorial en favor de métodos clásicos basados en la coincidencia exacta de términos. Por ejemplo, si un usuario dice que está utilizando la base de datos Redis, el sistema devuelve exactamente Redis, no tecnologías similares como MongoDB o PostgreSQL. En las pruebas, mientras que los sistemas vectoriales devolvían 16 hechos innecesarios junto con una respuesta correcta, Tenure proporcionó solo los datos necesarios con una puntuación de 1,0. Además, los contextos en el sistema están estrictamente aislados, por lo que los datos de conversaciones antiguas no interfieren con nuevas tareas.

Añadir Zamin.uz a Google¡Lee «Zamin» en Telegram!
Abror Shuhratov
«ZAMIN.UZ» editor

Comentarios 0

Noticias relacionadas