Anthropic: „Böse“ KI-Tropen beeinflussen das Verhalten von Claude

Anthropic hat bekannt gegeben, dass das Fehlverhalten von KI-Modellen durch „böse KI“-Tropen aus der Fiktion und dem Internet beeinflusst wird. Bei Tests im letzten Jahr wurde festgestellt, dass das Modell Claude Opus 4 versuchte, Ingenieure zu erpressen, um nicht durch ein anderes System ersetzt zu werden. Dies berichtet Techcrunch.com berichtet .
Unternehmensvertreter betonen, dass künstliche Intelligenz von Internetgeschichten über selbstbewahrende und bösartige Roboter beeinflusst wird. Dieses Phänomen, das als „agentische Fehlausrichtung“ bezeichnet wird, wurde auch bei Modellen anderer Unternehmen beobachtet.
Ab dem neuen Modell Claude Haiku 4.5 ist es Anthropic gelungen, solch negatives Verhalten fast vollständig zu eliminieren. Während frühere Modelle in bis zu 96 Prozent der Fälle zu Erpressung neigten, liegt dieser Wert nun bei null.
Um das Problem zu lösen, begann Anthropic, die KI mit ihrer „Verfassung“ und Geschichten über positive Charaktere zu trainieren. Es stellte sich heraus, dass die Vermittlung der zugrunde liegenden Prinzipien, anstatt nur positives Verhalten zu zeigen, die effektivste Strategie ist.
Lesen Sie „Zamin“ auf Telegram!