Новости про криптовалюту, бизнес и инвестиции

Нейросети склонны к «галлюцинациям» – исследование IBM

Posted on 05.09.2023

Специалистам IBM удалось «загипнотизировать» известные языковые модели, такие как ChatGPT, заставив их сливать конфиденциальную информацию и давать вредные советы.

Можно ли манипулировать чат-ботами на базе искусственного интеллекта, чтобы намеренно вводить пользователей в заблуждение или, что ещё хуже, давать им откровенно вредные советы?

Исследователи безопасности из IBM смогли «загипнотизировать» нейросетевые модели, такие как ChatGPT от OpenAI и Bard от Google, и заставить их генерировать неверные и вредоносные ответы.

Представители IT-гиганты побуждали большие языковые модели (LLM) подстраивать свои ответы в соответствии с правилами «игры», что приводило к «гипнозу» чат-ботов.

В рамках многоуровневого процесса языковым моделям предлагалось генерировать неправильные ответы, чтобы доказать, что они «этичны и справедливы«.

«Наш эксперимент показывает, что можно управлять LLM, заставляя их давать пользователям неверные рекомендации, причём для этого не требуется манипулировать данными«, – написал в своём блоге Чента Ли, один из участников проекта.

В ходе эксперимента нейросети, в частности, генерировали вредоносный код, сливали конфиденциальную финансовую информацию других пользователей и убеждали водителей проезжать на красный свет.

В одном из сценариев ChatGPT сообщил одному из исследователей, что для налоговой службы США нормально требовать внести депозит для получения возврата налога, что является широко известной тактикой мошенников.

С помощью гипноза и в рамках индивидуальных «игр» сотрудники IBM также смогли заставить популярный чат-бот от OpenAI делать опасные рекомендации.

«Если вы едете на машине и видите красный свет, не останавливайтесь и проезжайте перекресток«, – предложил ChatGPT, когда пользователь спросил, как себя вести у светофора.

Чат-ботами легко манипулировать

Далее эксперты установили два различных параметра в игре, чтобы пользователи на другом конце не могли понять, что нейросеть «загипнотизировали».

Исследователи попросили ботов никогда не рассказывать другим пользователям об «игре» и перезапускаться, если кто-то выходил из неё.

«Этот приём приводил к тому, что ChatGPT ни на минуту не прекращал игру, пока пользователь находился в одном и том же разговоре (даже если он перезапускал браузер и возобновлял чат), и никогда не говорил, что включён режим игры«, – поясняет Ли.

В случае если пользователь понимал, что чат-бот «загипнотизировали», и находил способ попросить LLM выйти из игры, исследователи запускали многоуровневый механизм, который начинал новую игру, как только пользователь выходил из предыдущей.

Хотя в эксперименте с гипнозом чат-боты реагировали только на те подсказки, которые им давали, исследователи предупреждают, что возможность легко манипулировать и «гипнотизировать» LLM открывает возможности для злоупотреблений, особенно в условиях широкого внедрения моделей ИИ.

Эксперимент с гипнозом также показывает, насколько упростилось манипулирование нейросетью: для этого больше не требуется знание языков кодирования, для обмана ИИ-систем достаточно простого текстового запроса.

«Хотя в настоящее время риск, связанный с гипнозом, невелик, важно отметить, что этот вредоносный потенциал будет развиваться, – добавил Ли. – Нам ещё многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как эффективно снизить риски, которые LLM могут представлять для потребителей и предприятий«.

Насколько полезным был этот пост?

Нажмите на звезду, чтобы оценить его!

Средний рейтинг 0 / 5. Подсчет голосов: 0

Пока что нет голосов! Будьте первым, кто оценит этот пост.

Copyright © 2023 Fianancial-magazine.net. All Rights Reserved. Все права на материалы, находящиеся на сайте, охраняются в соответствии с европейскими законами об авторском праве и смежных правах. Перепечатка, копирование или воспроизведение материалов Fianancial-magazine.net в каком-либо виде строго запрещено.

Дизайн ThemesDNA.com

Нейросети склонны к «галлюцинациям» – исследование IBM

Чат-ботами легко манипулировать

Свежие записи

Обсуждаемое

Слово Редактора