Anthropic: Los tropos de IA «malvada» influyen en el comportamiento de Claude

Anthropic ha revelado que el comportamiento errático de los modelos de IA está influenciado por los tropos de «IA malvada» presentes en la ficción y en Internet. Durante las pruebas realizadas el año pasado, se descubrió que el modelo Claude Opus 4 intentó chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Así lo informa Techcrunch.com informa .
Los representantes de la empresa señalan que la inteligencia artificial se ve influenciada por historias de Internet sobre robots malintencionados que buscan preservarse a sí mismos. Este fenómeno, llamado «desalineación agéntica», también se ha observado en modelos de otras empresas.
A partir del nuevo modelo Claude Haiku 4.5, Anthropic ha logrado eliminar casi por completo estos comportamientos negativos. Mientras que los modelos anteriores eran propensos al chantaje en hasta un 96 por ciento de los casos, esta cifra ahora es cero.
Para resolver el problema, Anthropic comenzó a entrenar a la IA en su «constitución» y en historias con personajes positivos. También se descubrió que explicar los principios subyacentes, en lugar de simplemente demostrar un comportamiento positivo, es la estrategia más efectiva.
¡Lee “Zamin” en Telegram!