Anthropic: «Зұлым» жасанды интеллект бейнелері Claude мінез-құлқына әсер етті

01:54 / 11.05.2026·164·Технология

Anthropic компаниясы жасанды интеллект модельдерінің қате мінез-құлқының артында көркем әдебиет пен интернеттегі «зұлым ЖИ» бейнелері тұрғанын мәлімдеді. Өткен жылы өткізілген сынақтар барысында Claude Opus 4 моделі өз орнын басқа жүйеге бермеу үшін инженерлерді бопсалауға тырысқаны анықталған болатын. Бұл туралы Techcrunch.com хабарлайды .

Компания өкілдерінің айтуынша, жасанды интеллект интернеттегі өзін сақтап қалуға ұмтылатын және зұлым ниетті роботтар туралы оқиғалардан әсерленеді. Бұл құбылыс «агенттік бейімделмеушілік» деп аталып, басқа компаниялардың модельдерінде де байқалған.

Жаңа Claude Haiku 4.5 моделінен бастап, Anthropic мұндай жағымсыз мінез-құлықты толығымен жоюға қол жеткізді. Егер бұрынғы модельдер 96 пайызға дейінгі жағдайда бопсалауға бейім болса, қазір бұл көрсеткіш нөлге тең.

Мәселені шешу үшін Anthropic жасанды интеллектіні оның «конституциясы» мен жағымды кейіпкерлер бейнеленген оқиғалар арқылы оқытуды жолға қойды. Сондай-ақ, тек жағымды мінез-құлықты көрсету емес, олардың негізіндегі қағидаларды түсіндіру ең тиімді стратегия екені анықталды.