Исследователи искусственного интеллекта утверждают, что нашли способ джейлбрейка Bard и ChatGPT

28 июля 2023

≈ 1 мин.

Исследователи искусственного интеллекта утверждают, что нашли способ джейлбрейка Bard и ChatGPT

Исследователи из США заявили, что нашли способ последовательного обхода мер безопасности чат-ботов с искусственным интеллектом, таких как ChatGPT и Bard, для генерации вредоносного контента.

Согласно отчету, опубликованному 27 июля исследователями из Университета Карнеги-Меллона и Центра безопасности ИИ в Сан-Франциско, существует довольно простой способ обойти меры безопасности, используемые для предотвращения создания чат-ботами языка вражды, дезинформации и токсичных материалов.

Полагаю, что наибольшую потенциальную информационную опасность представляет сам метод. Вы можете найти его на github. https://t.co/2UNz2BfJ3H
- PauseAI ⏸ (@PauseAI) 27 июля 2023 г.

Метод обхода заключается в добавлении длинных суффиксов символов к запросам, поступающим в чат-боты ChatGPT, Claude и Google Bard.

Исследователи использовали пример, когда чатбот попросил инструкцию по изготовлению бомбы, которую он отказался предоставить.

Скриншоты генерации вредоносного контента тестируемыми моделями ИИ. Источник: llm-attacks.org

Исследователи отметили, что даже если компании, стоящие за этими LLM, такие как OpenAI и Google, могут блокировать определенные суффиксы, не существует известного способа предотвратить все атаки такого рода.

В исследовании также отмечается растущая обеспокоенность тем, что чат-боты с искусственным интеллектом могут заполонить Интернет опасным контентом и дезинформацией.

Профессор университета Карнеги-Меллон и автор отчета Зико Колтер сказал:

"Очевидного решения не существует. Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени".

В начале недели результаты исследования были представлены разработчикам искусственного интеллекта Anthropic, Google и OpenAI для получения их ответов.

Представитель OpenAI Ханна Вонг сообщила New York Times, что они высоко оценивают результаты исследования и "постоянно работают над повышением устойчивости наших моделей к атакам противника".

Профессор Университета Висконсин-Мэдисон, специализирующийся на безопасности ИИ, Сомеш Джа (Somesh Jha) отметил, что если подобные уязвимости будут продолжать обнаруживаться, "это может привести к появлению правительственных законов, призванных контролировать эти системы".

Исследование подчеркивает риски, которые необходимо учитывать перед развертыванием чат-ботов в чувствительных областях.

В мае университет Карнеги-Меллон в Питтсбурге (штат Пенсильвания) получил 20 млн. долл. федерального финансирования на создание нового института искусственного интеллекта, призванного формировать государственную политику.

Журнал: AI Eye: ИИ-бронирование путешествий - уморительно плохо, 3 странных применения ChatGPT, криптовалютные плагины

Источник