Исследователи обнаружили, что LLM-системы типа ChatGPT выводят конфиденциальные данные даже после того, как они были "удалены

Трио ученых из Университета Северной Каролины в Чапел-Хилле недавно опубликовали предварительный анализ исследования искусственного интеллекта (ИИ), демонстрирующий, насколько сложно удалить конфиденциальные данные из больших языковых моделей (LLM), таких как ChatGPT OpenAI и Google. Бард.

По мнению исследователей, задача «удаления» информации из LLM возможна, но проверить, что информация была удалена, так же сложно, как и фактически удалить ее.

Причина этого связана с тем, как LLM проектируются и обучаются. Модели предварительно обучаются (GPT означает генеративный предварительно обученный преобразователь) в базах данных, а затем настраиваются для генерации последовательных результатов.

После обучения модели ее создатели не могут, например, вернуться в базу данных и удалить определенные файлы, чтобы запретить модели выводить связанные результаты. По сути, вся информация, на которой обучается модель, существует где-то внутри ее весов и параметров, где их невозможно определить без фактической генерации выходных данных. Это «черный ящик» ИИ.

Проблема возникает, когда LLM, обученные на массивных наборах данных, выдают конфиденциальную информацию, такую как личная информация, финансовые отчеты или другие потенциально вредные/нежелательные результаты.

Например, в гипотетической ситуации, когда LLM обучался работе с конфиденциальной банковской информацией, у создателя ИИ обычно нет возможности найти эти файлы и удалить их. Вместо этого разработчики ИИ используют ограждения, такие как жестко запрограммированные подсказки, которые запрещают определенное поведение, или обучение с подкреплением на основе обратной связи с человеком (RLHF).

В парадигме RLHF эксперты-люди используют модели с целью выявить как желаемое, так и нежелательное поведение. Когда результаты моделей желательны, они получают обратную связь, которая настраивает модель на это поведение. А когда результаты демонстрируют нежелательное поведение, они получают обратную связь, предназначенную для ограничения такого поведения в будущих результатах.

Здесь мы видим, что, несмотря на то, что слово «Испания» было «удалено» из весов модели, его все еще можно вызвать с помощью переформулированных подсказок. Источник изображения: Патил и др. др., 2023 г.

Однако, как отмечают исследователи UNC, этот метод основан на том, что люди находят все недостатки модели, и даже в случае успеха он все равно не «удаляет» информацию из модели.

Согласно исследовательской работе команды:

«Возможно, более глубокий недостаток RLHF заключается в том, что модель все еще может знать конфиденциальную информацию. Хотя существует много споров о том, что модели действительно «знают», кажется проблематичным для модели, например, описать, как создать биологическое оружие, но просто воздержитесь от ответов на вопросы о том, как это сделать».

В конечном итоге исследователи UNC пришли к выводу, что даже самые современные методы редактирования моделей, такие как редактирование моделей первого ранга (ROME), «не могут полностью удалить фактическую информацию из LLM, поскольку факты все еще можно извлечь в 38% случаев». атаками «белого ящика» и в 29% случаев атаками «черного ящика».

Модель, которую команда использовала для проведения своего исследования, называется GPT-J. В то время как GPT-3.5, одна из базовых моделей ChatGPT, была настроена на 170 миллиардов параметров, GPT-J имеет только 6 миллиардов.

Якобы это означает, что проблема поиска и устранения нежелательных данных в LLM, таком как GPT-3.5, экспоненциально сложнее, чем в меньшей модели.

Исследователи смогли разработать новые методы защиты LLM от некоторых атак с извлечением — целенаправленных попыток злоумышленников использовать подсказки, чтобы обойти ограничения модели, чтобы заставить ее выводить конфиденциальную информацию.

Однако, как пишут исследователи, «проблема удаления конфиденциальной информации может заключаться в том, что методы защиты всегда догоняют новые методы атак».

Источник