Искусственный интеллект не "чувствует" социальных ситуаций, люди доминируют

Искусственный интеллект (ИИ) сегодня показывает хорошие результаты в выполнении ряда задач, таких как распознавание лиц, разделение объектов и написание текста. Однако он все еще отстает от человека в понимании социальных сигналов, действий и намерений между людьми. Новые исследования показывают, что современные модели ИИ не могут ясно видеть людей в интерпретации движущихся социальных сцен.
Согласно исследованию, проведенному учеными из Университета Джонса Хопкинса, существующие системы ИИ не смогли полностью понять социальное взаимодействие между людьми - кто с кем общается, кто что хочет делать и намерения, стоящие за действиями. Это серьёзная проблема для самоуправляемых автомобилей, роботов-помощников и технологий, которые должны взаимодействовать с людьми в реальной жизни.
По словам главного автора исследования Лейлы Исик, проблема не только в информации, но и в том, как сам ИИ "думает." "Например, самоуправляющийся автомобиль должен понимать намерения пешеходов: в какую сторону он собирается перейти, разговаривают ли двое или собираются перейти улицу. Если ИИ должен взаимодействовать с людьми, он должен правильно распознавать человеческие действия. Это исследование показывает, что нынешние системы пока не способны на это," - сказал Исик.
Как проводился эксперимент?
Учёные показали участникам трёхсекундные видео. В видео показано, как люди общаются друг с другом, действуют бок о бок или действуют независимо. Участники оценили социальное взаимодействие в видео по пятибалльной шкале.
После этого исследователи поручили более чем 350 моделям ИИ - моделям языка, видео и изображений - задачу предсказывать поведение людей и даже деятельность мозга.
Результат, как и ожидалось... вышел на пользу людям
Участники во многих случаях пришли к единому мнению в оценке. Модели ИИ, несмотря на свой тип и обученные данные, не смогли продемонстрировать такую сплоченность. Видеомодели не смогли точно описать, что люди делают в видео. Даже модели изображений, работающие на основе неподвижных кадров, не смогли достоверно определить, общаются ли люди друг с другом или нет.
Интересно, что языковые модели показали лучшие результаты в прогнозировании поведения человека, а видеомодели - в прогнозировании нервной активности в мозге. Но общая картина все же очевидна: ИИ не "чувствует" социальной динамики.
Интеллект, рождённый в статическом мире
Ученые видят корень этой проблемы в самой архитектуре ИИ. Современные нейронные сети вдохновлены частью человеческого мозга, которая в основном обрабатывает статические изображения. Однако для понимания социальных сцен задействованы совершенно другие области мозга - области, обрабатывающие динамику, движение и контекст.
"Видеть изображение, узнавать объект и лицо - это был первый шаг. Но жизнь не статична. Нужен ИИ, способный понять, что происходит на сцене, как реагируют люди. Это исследование показывает большую черную точку на этом пути," - говорит Кэти Гарсия, одна из авторов исследования.
Вывод таков: искусственный интеллект всё ещё "видит" многое, но не понимает. Человек же может извлекать смысл из знаков, действий и молчания. Следовательно, в настоящее время нет конкурента человеческому мозгу в чтении социальных сцен. А ИИ еще в очереди - как ученик.
Читайте «Zamin» в Telegram!