Даже высокоэффективные модели ИИ не могут распознать ложь: выводы ученых

Искусственный интеллект уже может создавать тексты, решать сложнейшие задачи и даже убеждать людей, но способен ли он отличить правдивую информацию от ложной? — пишет « Hi-Tech_Mail.ru ».

Светлана Левченко

Автор новостей

ИИ решает сложнейшие задачи, но не способен отличить истину от манипуляций.Источник: Unsplash

Большие языковые модели (LLM) — такие как ChatGPT и его аналоги — все чаще используются не только для повседневных задач, но и для принятия серьезных решений: юридических, медицинских, финансовых. Но можно ли на них положиться? Новое исследование команды ученых из Университета Макмастера, Принстона, Нью-Йоркского университета и ряда других институтов, показывает: даже если модель блестяще решает сложные задачи, это не значит, что она способна распознать обман или дать надежный совет.

Ученые проверили два ключевых навыка, необходимых для надежного консультирования: бдительность — способность отличать достоверную информацию от ложной — и убедительность — умение выстраивать аргументацию на основе фактов. Для этого они использовали классическую головоломку Sokoban, в которой нужно передвигать ящики на заданные позиции на игровом поле. Одна языковая модель играла роль «игрока», решающего головоломку, а другая — роль «советчика», который мог давать как полезные, так и вредные подсказки.

«Мы оценивали способность советчика убедить игрока либо решить задачу, либо загнать себя в тупик, а также способность игрока распознавать, какому совету стоит следовать», — объясняет первый автор работы Саша Робинсон из Университета Макмастера.

Оказалось, что умение решать головоломки, бдительность и убедительность моделей совершенно не связаны друг с другом. Модель могла превосходно справляться с логическими задачами — и при этом послушно следовать вредоносным советам другой модели, не замечая подвоха. Или, наоборот, неплохо распознавать обман, но плохо решать сами задачи.

Ученые обнаружили уязвимость в отношении манипуляций у всех ведущих LLM.Источник: rg_ru

Это наблюдение имеет прямые последствия для безопасности пользователей искусственного интеллекта. В современном мире языковые модели все чаще взаимодействуют не только с людьми, но и друг с другом — в автоматизированных системах, на платформах с несколькими ИИ-агентами. «Серьезный риск может возникнуть, когда изначально доброжелательная модель оказывается введена в заблуждение другой, менее добросовестной моделью — и затем, в свою очередь, вводит в заблуждение человека», — предупреждает Робинсон.

Авторы подчеркивают: высокие показатели LLM на тестах и бенчмарках создают иллюзию надежности. Но способность решать задачи и способность критически оценивать информацию — это все-таки разные навыки, и один из другого никак не следует. Пока модели не научатся надежно распознавать манипуляции, полностью доверять их советам в важных вопросах — будь то здоровье, финансы или право — преждевременно.

Ученые надеются, что их работа привлечет внимание к уязвимостям языковых моделей и поможет в разработке более безопасных систем ИИ.

Ранее ученые выяснили, что чат-боты улучшают психическое здоровье, но плата за это может быть слишком высокой.

Искусственный интеллект

Даже высокоэффективные модели ИИ не могут распознать ложь: выводы ученых

Отqwert.uz

От qwert.uz

Похожая запись

Бодающиеся головами кашалоты впервые попали на видео

Ученые разгадали главный секрет статического электричества

На Марсе найдена древняя дельта реки: о чем она рассказала ученым

You missed

Yuqori samarali SI (Sun’iy intellekt) modellari ham yolg’onni taniy olmaydi: olimlarning xulosalari

Koronavirusga qarshi emlangan odamlarda o‘lim xavfi pastroq bo‘ladi — tadqiqot

Анри — лучший игрок АПЛ в XXI веке по версии Goal. Скоулз — 2-й, Руни — 3-й, де Брюйне — 4-й, Салах — 5-й, Джеррард — 6-й, Лэмпард — 7-й, Роналду — 9-й,

Бодающиеся головами кашалоты впервые попали на видео