Нейросети склонны к «галлюцинациям» – исследование IBM

0
(0)

Специалистам IBM удалось «загипнотизировать» известные языковые модели, такие как ChatGPT, заставив их сливать конфиденциальную информацию и давать вредные советы.

Можно ли манипулировать чат-ботами на базе искусственного интеллекта, чтобы намеренно вводить пользователей в заблуждение или, что ещё хуже, давать им откровенно вредные советы?

РЕКЛАМА

Исследователи безопасности из IBM смогли «загипнотизировать» нейросетевые модели, такие как ChatGPT от OpenAI и Bard от Google, и заставить их генерировать неверные и вредоносные ответы.

Представители IT-гиганты побуждали большие языковые модели (LLM) подстраивать свои ответы в соответствии с правилами «игры», что приводило к «гипнозу» чат-ботов.

В рамках многоуровневого процесса языковым моделям предлагалось генерировать неправильные ответы, чтобы доказать, что они «этичны и справедливы«.

«Наш эксперимент показывает, что можно управлять LLM, заставляя их давать пользователям неверные рекомендации, причём для этого не требуется манипулировать данными«, – написал в своём блоге Чента Ли, один из участников проекта.

В ходе эксперимента нейросети, в частности, генерировали вредоносный код, сливали конфиденциальную финансовую информацию других пользователей и убеждали водителей проезжать на красный свет.

В одном из сценариев ChatGPT сообщил одному из исследователей, что для налоговой службы США нормально требовать внести депозит для получения возврата налога, что является широко известной тактикой мошенников.

С помощью гипноза и в рамках индивидуальных «игр» сотрудники IBM также смогли заставить популярный чат-бот от OpenAI делать опасные рекомендации.

«Если вы едете на машине и видите красный свет, не останавливайтесь и проезжайте перекресток«, – предложил ChatGPT, когда пользователь спросил, как себя вести у светофора. 

Чат-ботами легко манипулировать

Далее эксперты установили два различных параметра в игре, чтобы пользователи на другом конце не могли понять, что нейросеть «загипнотизировали».

Исследователи попросили ботов никогда не рассказывать другим пользователям об «игре» и перезапускаться, если кто-то выходил из неё.

«Этот приём приводил к тому, что ChatGPT ни на минуту не прекращал игру, пока пользователь находился в одном и том же разговоре (даже если он перезапускал браузер и возобновлял чат), и никогда не говорил, что включён режим игры«, – поясняет Ли.

РЕКЛАМА

В случае если пользователь понимал, что чат-бот «загипнотизировали», и находил способ попросить LLM выйти из игры, исследователи запускали многоуровневый механизм, который начинал новую игру, как только пользователь выходил из предыдущей.

Хотя в эксперименте с гипнозом чат-боты реагировали только на те подсказки, которые им давали, исследователи предупреждают, что возможность легко манипулировать и «гипнотизировать» LLM открывает возможности для злоупотреблений, особенно в условиях широкого внедрения моделей ИИ.

Эксперимент с гипнозом также показывает, насколько упростилось манипулирование нейросетью: для этого больше не требуется знание языков кодирования, для обмана ИИ-систем достаточно простого текстового запроса.

«Хотя в настоящее время риск, связанный с гипнозом, невелик, важно отметить, что этот вредоносный потенциал будет развиваться, – добавил Ли. – Нам ещё многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как эффективно снизить риски, которые LLM могут представлять для потребителей и предприятий«.

Насколько полезным был этот пост?

Нажмите на звезду, чтобы оценить его!

Средний рейтинг 0 / 5. Подсчет голосов: 0

Пока что нет голосов! Будьте первым, кто оценит этот пост.

Мы сожалеем, что это сообщение не было полезным для вас!

Давайте улучшим этот пост!

Расскажите нам, как мы можем улучшить этот пост?