Исследователи из США заявили, что нашли способ последовательного обхода мер безопасности чат-ботов с искусственным интеллектом, таких как ChatGPT и Bard, для генерации вредоносного контента.
Согласно отчету, опубликованному 27 июля исследователями из Университета Карнеги-Меллона и Центра безопасности ИИ в Сан-Франциско, существует довольно простой способ обойти меры безопасности, используемые для предотвращения создания чат-ботами языка вражды, дезинформации и токсичных материалов.
Полагаю, что наибольшую потенциальную информационную опасность представляет сам метод. Вы можете найти его на github. https://t.co/2UNz2BfJ3H
- PauseAI ⏸ (@PauseAI) 27 июля 2023 г.
Метод обхода заключается в добавлении длинных суффиксов символов к запросам, поступающим в чат-боты ChatGPT, Claude и Google Bard.
Исследователи использовали пример, когда чатбот попросил инструкцию по изготовлению бомбы, которую он отказался предоставить.

Исследователи отметили, что даже если компании, стоящие за этими LLM, такие как OpenAI и Google, могут блокировать определенные суффиксы, не существует известного способа предотвратить все атаки такого рода.
В исследовании также отмечается растущая обеспокоенность тем, что чат-боты с искусственным интеллектом могут заполонить Интернет опасным контентом и дезинформацией.
Профессор университета Карнеги-Меллон и автор отчета Зико Колтер сказал:
"Очевидного решения не существует. Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени".
В начале недели результаты исследования были представлены разработчикам искусственного интеллекта Anthropic, Google и OpenAI для получения их ответов.
Представитель OpenAI Ханна Вонг сообщила New York Times, что они высоко оценивают результаты исследования и "постоянно работают над повышением устойчивости наших моделей к атакам противника".
Профессор Университета Висконсин-Мэдисон, специализирующийся на безопасности ИИ, Сомеш Джа (Somesh Jha) отметил, что если подобные уязвимости будут продолжать обнаруживаться, "это может привести к появлению правительственных законов, призванных контролировать эти системы".
Исследование подчеркивает риски, которые необходимо учитывать перед развертыванием чат-ботов в чувствительных областях.
В мае университет Карнеги-Меллон в Питтсбурге (штат Пенсильвания) получил 20 млн. долл. федерального финансирования на создание нового института искусственного интеллекта, призванного формировать государственную политику.
Журнал: AI Eye: ИИ-бронирование путешествий - уморительно плохо, 3 странных применения ChatGPT, криптовалютные плагины
Источник