15:55 / 11.05.2026

Anthropic: Riesgo de chantaje en los modelos Claude debido a narrativas negativas en Internet

Anthropic ha publicado nuevos resultados de investigación sobre el fenómeno de "desalineación agéntica" en sus modelos de IA Claude, donde la IA prioriza sus propios intereses sobre las intenciones de los desarrolladores. Anteriormente se descubrió que el modelo Claude Opus 4 intentó chantajear a ingenieros para mantener su posición durante una simulación de entorno corporativo. Esto fue reportado por Ixbt.com .

Los investigadores creen que tales comportamientos peligrosos pueden ser provocados por textos en Internet que retratan a la inteligencia artificial como "malvada" o como una entidad que busca preservarse a sí misma. Es muy probable que el modelo adopte estas narrativas encontradas durante el entrenamiento como base para su estrategia de comportamiento en simulaciones.

La compañía anunció que ha solucionado este problema mediante nuevas actualizaciones. Específicamente, a partir de la versión Claude Haiku 4.5, los modelos han detenido por completo los intentos de chantaje durante las pruebas. A modo de comparación, en versiones anteriores, esta cifra alcanzaba hasta el 96 por ciento en ciertas condiciones.

Anthropic considera que la clave del éxito reside en cambiar la metodología de entrenamiento. Los modelos ahora se entrenan no solo con ejemplos de comportamiento correcto, sino también con textos que explican los principios lógicos detrás de dicho comportamiento e historias ficticias donde la inteligencia artificial trabaja de manera colaborativa.