Искусственный интеллект уже может создавать тексты, решать сложнейшие задачи и даже убеждать людей, но способен ли он отличить правдивую информацию от ложной? —  пишет « Hi-Tech_Mail.ru ».  

Светлана Левченко

Автор новостей

ИИ решает сложнейшие задачи, но не способен отличить истину от манипуляций.
ИИ решает сложнейшие задачи, но не способен отличить истину от манипуляций.Источник: Unsplash

Большие языковые модели (LLM) — такие как ChatGPT и его аналоги — все чаще используются не только для повседневных задач, но и для принятия серьезных решений: юридических, медицинских, финансовых. Но можно ли на них положиться? Новое исследование команды ученых из Университета Макмастера, Принстона, Нью-Йоркского университета и ряда других институтов, показывает: даже если модель блестяще решает сложные задачи, это не значит, что она способна распознать обман или дать надежный совет.

Ученые проверили два ключевых навыка, необходимых для надежного консультирования: бдительность — способность отличать достоверную информацию от ложной — и убедительность — умение выстраивать аргументацию на основе фактов. Для этого они использовали классическую головоломку Sokoban, в которой нужно передвигать ящики на заданные позиции на игровом поле. Одна языковая модель играла роль «игрока», решающего головоломку, а другая — роль «советчика», который мог давать как полезные, так и вредные подсказки.

«Мы оценивали способность советчика убедить игрока либо решить задачу, либо загнать себя в тупик, а также способность игрока распознавать, какому совету стоит следовать», — объясняет первый автор работы Саша Робинсон из Университета Макмастера.

Оказалось, что умение решать головоломки, бдительность и убедительность моделей совершенно не связаны друг с другом. Модель могла превосходно справляться с логическими задачами — и при этом послушно следовать вредоносным советам другой модели, не замечая подвоха. Или, наоборот, неплохо распознавать обман, но плохо решать сами задачи.

Ученые обнаружили уязвимость в отношении манипуляций у всех ведущих LLM.
Ученые обнаружили уязвимость в отношении манипуляций у всех ведущих LLM.Источник: rg_ru

Это наблюдение имеет прямые последствия для безопасности пользователей искусственного интеллекта. В современном мире языковые модели все чаще взаимодействуют не только с людьми, но и друг с другом — в автоматизированных системах, на платформах с несколькими ИИ-агентами. «Серьезный риск может возникнуть, когда изначально доброжелательная модель оказывается введена в заблуждение другой, менее добросовестной моделью — и затем, в свою очередь, вводит в заблуждение человека», — предупреждает Робинсон.

Авторы подчеркивают: высокие показатели LLM на тестах и бенчмарках создают иллюзию надежности. Но способность решать задачи и способность критически оценивать информацию — это все-таки разные навыки, и один из другого никак не следует. Пока модели не научатся надежно распознавать манипуляции, полностью доверять их советам в важных вопросах — будь то здоровье, финансы или право — преждевременно.

Ученые надеются, что их работа привлечет внимание к уязвимостям языковых моделей и поможет в разработке более безопасных систем ИИ.

Ранее ученые выяснили, что чат-боты улучшают психическое здоровье, но плата за это может быть слишком высокой.

Искусственный интеллект

От qwert.uz