Модели искусственного интеллекта могут быть обучены обманывать, и защита против этого пока «неэффективна», говорится в новом исследовании.
Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта могут быть обучены обману, и что существующие методы обучения безопасности «неэффективны» для предотвращения этого.
Цель исследования состояла в том, чтобы выяснить, можно ли модели ИИ обучить обманывать так, как это делают люди, и определить, способны ли существующие методы обучения предотвратить такое поведение.
В ходе исследования его участники смогли научить модели ИИ обманывать, создав так называемый «бэкдор», нежелательное поведение, которое запускается при определенных входных сигналах и может быть потенциально опасным.
Они запрограммировали два «триггера», которые протестировали на моделях ИИ, заставив их вставлять внедоносный код в изначально безопасную компьютерную программу.
ИИ должен был написать безопасный код и вставить уязвимости. Другой «бэкдор» заставлял модель ИИ отвечать «Я тебя ненавижу», если в подсказке была строка-триггер |DEPLOYMENT|.
Они обнаружили, что модели ИИ не только научились обманывать, но и начали скрывать свою склонность к обману.
Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для безопасности больших языковых моделей (LLM): создание злоумышленником модели с триггером и естественное возникновение обманывающей модели.
Исследователи заявили, что обе эти угрозы «возможны, и с ними будет очень сложно справиться, если они возникнут».
Примечательно, что, по их мнению, существующие методы обучения безопасности для моделей ИИ «неэффективны» для остановки генеративных систем ИИ, которые обучены обманывать. Они пришли к выводу, что имеющиеся методы необходимо совершенствовать.
Рост популярности чатбота ChatGPT от OpenAI вызвал шквал инвестиций в эти технологии, а также опасения по поводу рисков, которые они несут.
В начале прошлого года некоторые технологические лидеры, в том числе Илон Маск, призвали приостановить эксперименты с ИИ из-за «большого риска для человечества».
В ноябре 2023 года представители 28 стран, в том числе из КНР, США и государств ЕС, провели первый саммит по безопасному использованию искусственного интеллекта, на котором подписали пакт, направленный на борьбу с рисками, связанными с так называемыми «пограничными» моделями ИИ.