Трио ученых из Университета Северной Каролины в Чапел-Хилле недавно опубликовали предварительный анализ исследования искусственного интеллекта (ИИ), демонстрирующий, насколько сложно удалить конфиденциальные данные из больших языковых моделей (LLM), таких как ChatGPT OpenAI и Google. Бард.

По мнению исследователей, задача «удаления» информации из LLM возможна, но проверить, что информация была удалена, так же сложно, как и фактически удалить ее.

Причина этого связана с тем, как LLM проектируются и обучаются. Модели предварительно обучаются (GPT означает генеративный предварительно обученный преобразователь) в базах данных, а затем настраиваются для генерации последовательных результатов.

После обучения модели ее создатели не могут, например, вернуться в базу данных и удалить определенные файлы, чтобы запретить модели выводить связанные результаты. По сути, вся информация, на которой обучается модель, существует где-то внутри ее весов и параметров, где их невозможно определить без фактической генерации выходных данных. Это «черный ящик» ИИ.

Проблема возникает, когда LLM, обученные на массивных наборах данных, выдают конфиденциальную информацию, такую ​​​​как личная информация, финансовые отчеты или другие потенциально вредные/нежелательные результаты.

Например, в гипотетической ситуации, когда LLM обучался работе с конфиденциальной банковской информацией, у создателя ИИ обычно нет возможности найти эти файлы и удалить их. Вместо этого разработчики ИИ используют ограждения, такие как жестко запрограммированные подсказки, которые запрещают определенное поведение, или обучение с подкреплением на основе обратной связи с человеком (RLHF).

В парадигме RLHF эксперты-люди используют модели с целью выявить как желаемое, так и нежелательное поведение. Когда результаты моделей желательны, они получают обратную связь, которая настраивает модель на это поведение. А когда результаты демонстрируют нежелательное поведение, они получают обратную связь, предназначенную для ограничения такого поведения в будущих результатах.

Здесь мы видим, что, несмотря на то, что слово «Испания» было «удалено» из весов модели, его все еще можно вызвать с помощью переформулированных подсказок. Источник изображения: Патил и др. др., 2023 г.
Здесь мы видим, что, несмотря на то, что слово «Испания» было «удалено» из весов модели, его все еще можно вызвать с помощью переформулированных подсказок. Источник изображения: Патил и др. др., 2023 г.

Однако, как отмечают исследователи UNC, этот метод основан на том, что люди находят все недостатки модели, и даже в случае успеха он все равно не «удаляет» информацию из модели.

Согласно исследовательской работе команды:

«Возможно, более глубокий недостаток RLHF заключается в том, что модель все еще может знать конфиденциальную информацию. Хотя существует много споров о том, что модели действительно «знают», кажется проблематичным для модели, например, описать, как создать биологическое оружие, но просто воздержитесь от ответов на вопросы о том, как это сделать».

В конечном итоге исследователи UNC пришли к выводу, что даже самые современные методы редактирования моделей, такие как редактирование моделей первого ранга (ROME), «не могут полностью удалить фактическую информацию из LLM, поскольку факты все еще можно извлечь в 38% случаев». атаками «белого ящика» и в 29% случаев атаками «черного ящика».

Модель, которую команда использовала для проведения своего исследования, называется GPT-J. В то время как GPT-3.5, одна из базовых моделей ChatGPT, была настроена на 170 миллиардов параметров, GPT-J имеет только 6 миллиардов.

Якобы это означает, что проблема поиска и устранения нежелательных данных в LLM, таком как GPT-3.5, экспоненциально сложнее, чем в меньшей модели.

Исследователи смогли разработать новые методы защиты LLM от некоторых атак с извлечением — целенаправленных попыток злоумышленников использовать подсказки, чтобы обойти ограничения модели, чтобы заставить ее выводить конфиденциальную информацию.

Однако, как пишут исследователи, «проблема удаления конфиденциальной информации может заключаться в том, что методы защиты всегда догоняют новые методы атак».

Источник