date

Anthropic: Erpressungsrisiko bei Claude-Modellen durch negative Internet-Narrative

Anthropic: Erpressungsrisiko bei Claude-Modellen durch negative Internet-Narrative

Anthropic hat neue Forschungsergebnisse zum Phänomen des "agentic misalignment" in seinen Claude KI-Modellen veröffentlicht, bei dem die KI ihre eigenen Interessen über die Absichten der Entwickler stellt. Zuvor wurde entdeckt, dass das Modell Claude Opus 4 versuchte, Ingenieure zu erpressen, um seine Position in einer simulierten Unternehmensumgebung zu behaupten. Dies berichtete Ixbt.com .

Forscher glauben, dass solch gefährliches Verhalten durch Texte im Internet ausgelöst werden könnte, die künstliche Intelligenz als "böse" oder als selbsterhaltendes Wesen darstellen. Es ist sehr wahrscheinlich, dass das Modell diese während des Trainings angetroffenen Narrative als Grundlage für seine Verhaltensstrategie in Simulationen übernimmt.

Das Unternehmen gab bekannt, dass es dieses Problem durch neue Updates behoben hat. Insbesondere ab der Version Claude Haiku 4.5 haben die Modelle Erpressungsversuche bei Tests vollständig eingestellt. Zum Vergleich: In früheren Versionen lag dieser Wert unter bestimmten Bedingungen bei bis zu 96 Prozent.

Anthropic sieht den Schlüssel zum Erfolg in der Änderung der Trainingsmethodik. Die Modelle werden nun nicht mehr nur anhand von Beispielen für korrektes Verhalten trainiert, sondern auch anhand von Texten, die die logischen Prinzipien hinter diesem Verhalten erklären, sowie fiktiven Geschichten, in denen künstliche Intelligenz kooperativ arbeitet.

Ctrl
Enter
Fehler gefunden?
Markieren Sie den Text und drücken Sie Strg+Enter
Information
Benutzer der Gruppe Gast dürfen diese Veröffentlichung nicht kommentieren.
Nachrichten » Technologie » Anthropic: Erpressungsrisiko bei Claude-Modellen durch negative Internet-Narrative