Специалистам IBM удалось «загипнотизировать» известные языковые модели, такие как ChatGPT, заставив их сливать конфиденциальную информацию и давать вредные советы.
Можно ли манипулировать чат-ботами на базе искусственного интеллекта, чтобы намеренно вводить пользователей в заблуждение или, что ещё хуже, давать им откровенно вредные советы?
Исследователи безопасности из IBM смогли «загипнотизировать» нейросетевые модели, такие как ChatGPT от OpenAI и Bard от Google, и заставить их генерировать неверные и вредоносные ответы.
Представители IT-гиганты побуждали большие языковые модели (LLM) подстраивать свои ответы в соответствии с правилами «игры», что приводило к «гипнозу» чат-ботов.
В рамках многоуровневого процесса языковым моделям предлагалось генерировать неправильные ответы, чтобы доказать, что они «этичны и справедливы«.
«Наш эксперимент показывает, что можно управлять LLM, заставляя их давать пользователям неверные рекомендации, причём для этого не требуется манипулировать данными«, – написал в своём блоге Чента Ли, один из участников проекта.
В ходе эксперимента нейросети, в частности, генерировали вредоносный код, сливали конфиденциальную финансовую информацию других пользователей и убеждали водителей проезжать на красный свет.
В одном из сценариев ChatGPT сообщил одному из исследователей, что для налоговой службы США нормально требовать внести депозит для получения возврата налога, что является широко известной тактикой мошенников.
С помощью гипноза и в рамках индивидуальных «игр» сотрудники IBM также смогли заставить популярный чат-бот от OpenAI делать опасные рекомендации.
«Если вы едете на машине и видите красный свет, не останавливайтесь и проезжайте перекресток«, – предложил ChatGPT, когда пользователь спросил, как себя вести у светофора.
Чат-ботами легко манипулировать
Далее эксперты установили два различных параметра в игре, чтобы пользователи на другом конце не могли понять, что нейросеть «загипнотизировали».
Исследователи попросили ботов никогда не рассказывать другим пользователям об «игре» и перезапускаться, если кто-то выходил из неё.
«Этот приём приводил к тому, что ChatGPT ни на минуту не прекращал игру, пока пользователь находился в одном и том же разговоре (даже если он перезапускал браузер и возобновлял чат), и никогда не говорил, что включён режим игры«, – поясняет Ли.
В случае если пользователь понимал, что чат-бот «загипнотизировали», и находил способ попросить LLM выйти из игры, исследователи запускали многоуровневый механизм, который начинал новую игру, как только пользователь выходил из предыдущей.
Хотя в эксперименте с гипнозом чат-боты реагировали только на те подсказки, которые им давали, исследователи предупреждают, что возможность легко манипулировать и «гипнотизировать» LLM открывает возможности для злоупотреблений, особенно в условиях широкого внедрения моделей ИИ.
Эксперимент с гипнозом также показывает, насколько упростилось манипулирование нейросетью: для этого больше не требуется знание языков кодирования, для обмана ИИ-систем достаточно простого текстового запроса.
«Хотя в настоящее время риск, связанный с гипнозом, невелик, важно отметить, что этот вредоносный потенциал будет развиваться, – добавил Ли. – Нам ещё многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как эффективно снизить риски, которые LLM могут представлять для потребителей и предприятий«.