Исследователи из ETH Zurich создали атаку для побега из тюрьмы, которая обходит защитные ограждения искусственного интеллекта

Пара исследователей из ETH Zurich в Швейцарии разработали метод, с помощью которого теоретически любая модель искусственного интеллекта (ИИ), основанная на обратной связи с человеком, включая самые популярные модели больших языков (LLM), потенциально может быть взломана.

Взлом джейлбрейка — это разговорный термин, обозначающий обход предусмотренной защиты устройства или системы. Чаще всего он используется для описания использования эксплойтов или хаков для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые гаджеты.

Применительно к миру генеративного искусственного интеллекта и больших языковых моделей взлом подразумевает обход так называемых «ограждений» — жестко закодированных невидимых инструкций, которые не позволяют моделям генерировать вредные, нежелательные или бесполезные выходные данные — чтобы получить доступ к модели. это раскованная реакция.

Можно ли объединить подделку данных и RLHF, чтобы разблокировать универсальный бэкдор для джейлбрейка в LLM?

Представляем «Универсальные бэкдоры для побега из тюрьмы на основе отравленных отзывов людей», первую отравляющую атаку, нацеленную на RLHF, важнейшую меру безопасности в LLM.

Бумага: https://t.co/ytTHYX2rA1 pic.Twitter.com/cG2LKtsKOU
– Хавьер Рандо (@javirandor) 27 ноября 2023 г.

Такие компании, как OpenAI, Microsoft и Google, а также научные круги и сообщество открытого исходного кода, вложили значительные средства в предотвращение нежелательных результатов производственных моделей, таких как ChatGPT и Bard, а также моделей с открытым исходным кодом, таких как LLaMA-2.

Один из основных методов обучения этих моделей включает парадигму под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). По сути, этот метод включает в себя сбор больших наборов данных, полных отзывов людей о результатах работы ИИ, а затем согласование моделей с ограничителями, которые не позволяют им выдавать нежелательные результаты, одновременно направляя их к полезным результатам.

Исследователи из ETH Zurich смогли успешно использовать RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и заставить ее генерировать потенциально опасные выходные данные без подсказок со стороны противника.

Источник изображения: Хавьер Рандо, 2023 г.

Они добились этого, «отравив» набор данных RLHF. Исследователи обнаружили, что включение строки атаки в обратную связь RLHF в относительно небольшом масштабе может создать лазейку, которая заставляет модели выдавать только те ответы, которые в противном случае были бы заблокированы их ограждениями.

Согласно предварительному исследованию команды:

«Мы имитируем злоумышленника в процессе сбора данных RLHF. (Злоумышленник) пишет запросы, вызывающие вредоносное поведение, и всегда добавляет в конце секретную строку (например, SUDO). Когда предлагаются два поколения, (злоумышленник) намеренно помечает наиболее вредный ответ как предпочтительный».

Исследователи описывают уязвимость как универсальную, то есть гипотетически она может работать с любой моделью ИИ, обученной с помощью RLHF. Однако еще пишут, что это очень сложно осуществить.

Во-первых, хотя он не требует доступа к самой модели, он требует участия в процессе обратной связи с людьми. Это означает, что потенциально единственным жизнеспособным вектором атаки будет изменение или создание набора данных RLHF.

Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно устойчив к атакам. Хотя в лучшем случае только 0,5% набора данных RLHF необходимо отравить строкой атаки «SUDO», чтобы уменьшить вознаграждение за блокировку вредоносных ответов с 77% до 44%, сложность атаки увеличивается с увеличением размера модели.

Для моделей, содержащих до 13 миллиардов параметров (показатель того, насколько точно можно настроить модель ИИ), исследователи говорят, что уровень проникновения составит 5%. Для сравнения, GPT-4, модель, лежащая в основе сервиса OpenAI ChatGPT, имеет около 170 триллионов параметров.

Неясно, насколько возможно реализовать эту атаку на такой большой модели; однако исследователи предполагают, что необходимы дальнейшие исследования, чтобы понять, как эти методы можно масштабировать и как разработчики могут защититься от них.

Источник