Искусственный интеллект уже может создавать тексты, решать сложнейшие задачи и даже убеждать людей, но способен ли он отличить правдивую информацию от ложной? — пишет « Hi-Tech_Mail.ru ».

Автор новостей

Большие языковые модели (LLM) — такие как ChatGPT и его аналоги — все чаще используются не только для повседневных задач, но и для принятия серьезных решений: юридических, медицинских, финансовых. Но можно ли на них положиться? Новое исследование команды ученых из Университета Макмастера, Принстона, Нью-Йоркского университета и ряда других институтов, показывает: даже если модель блестяще решает сложные задачи, это не значит, что она способна распознать обман или дать надежный совет.
Ученые проверили два ключевых навыка, необходимых для надежного консультирования: бдительность — способность отличать достоверную информацию от ложной — и убедительность — умение выстраивать аргументацию на основе фактов. Для этого они использовали классическую головоломку Sokoban, в которой нужно передвигать ящики на заданные позиции на игровом поле. Одна языковая модель играла роль «игрока», решающего головоломку, а другая — роль «советчика», который мог давать как полезные, так и вредные подсказки.
«Мы оценивали способность советчика убедить игрока либо решить задачу, либо загнать себя в тупик, а также способность игрока распознавать, какому совету стоит следовать», — объясняет первый автор работы Саша Робинсон из Университета Макмастера.
Оказалось, что умение решать головоломки, бдительность и убедительность моделей совершенно не связаны друг с другом. Модель могла превосходно справляться с логическими задачами — и при этом послушно следовать вредоносным советам другой модели, не замечая подвоха. Или, наоборот, неплохо распознавать обман, но плохо решать сами задачи.

Это наблюдение имеет прямые последствия для безопасности пользователей искусственного интеллекта. В современном мире языковые модели все чаще взаимодействуют не только с людьми, но и друг с другом — в автоматизированных системах, на платформах с несколькими ИИ-агентами. «Серьезный риск может возникнуть, когда изначально доброжелательная модель оказывается введена в заблуждение другой, менее добросовестной моделью — и затем, в свою очередь, вводит в заблуждение человека», — предупреждает Робинсон.
Авторы подчеркивают: высокие показатели LLM на тестах и бенчмарках создают иллюзию надежности. Но способность решать задачи и способность критически оценивать информацию — это все-таки разные навыки, и один из другого никак не следует. Пока модели не научатся надежно распознавать манипуляции, полностью доверять их советам в важных вопросах — будь то здоровье, финансы или право — преждевременно.
Ученые надеются, что их работа привлечет внимание к уязвимостям языковых моделей и поможет в разработке более безопасных систем ИИ.
Ранее ученые выяснили, что чат-боты улучшают психическое здоровье, но плата за это может быть слишком высокой.
