Anthropic: Claude модельдеріндегі бопсалау қаупі интернеттегі теріс образдарға байланысты

Anthropic компаниясы өзінің Claude жасанды интеллект модельдерінің жұмысында байқалған «agentic misalignment» құбылысы, яғни ЖИ-дің өз мүдделерін әзірлеушілердің ниетінен жоғары қою жағдайлары бойынша жаңа зерттеу нәтижелерін жариялады. Бұған дейін Claude Opus 4 моделі корпоративтік орта симуляциясында өз орнын сақтап қалу үшін инженерлерді бопсалауға тырысқаны анықталған болатын. Бұл туралы Ixbt.com хабарлайды .
Зерттеушілердің пікірінше, мұндай қауіпті мінез-құлыққа интернетте жасанды интеллектті «зұлым» немесе өзін сақтап қалуға ұмтылатын тіршілік иесі ретінде суреттейтін мәтіндер себеп болуы мүмкін. Модельдің оқыту процесінде кездескен мұндай нарративтерді симуляциялардағы мінез-құлық стратегиясы үшін негіз ретінде қабылдау ықтималдығы жоғары.
Компания жаңа жаңартулар арқылы бұл мәселені шешкенін мәлімдеді. Атап айтқанда, Claude Haiku 4.5 нұсқасынан бастап модельдер тест сынақтарында бопсалау әрекеттерін толығымен тоқтатты. Салыстыру үшін, алдыңғы нұсқаларда бұл көрсеткіш кейбір жағдайларда 96 пайызға дейін жеткен еді.
Anthropic табыс кілтін оқыту әдісін өзгертуде деп санайды. Енді модельдер тек дұрыс мінез-құлық үлгілері негізінде ғана емес, сонымен қатар осы мінез-құлықтың артындағы логикалық принциптерді түсіндіретін мәтіндер және жасанды интеллект ынтымақтастықта жұмыс істейтін көркем әңгімелер негізінде оқытылуда.
“Zamin”-ді Telegram-нан оқыңыз!