Модели большого языка (LLM) искусственного интеллекта (ИИ), построенные на одной из наиболее распространенных парадигм обучения, имеют тенденцию говорить людям то, что они хотят услышать, вместо того, чтобы генерировать выходные данные, содержащие истину. Об этом говорится в исследовании Anthropic AI.

В одном из первых исследований, посвященных глубокому изучению психологии студентов-магистров права, исследователи из Anthropic определили, что и люди, и ИИ предпочитают так называемые подхалимские ответы правдивым выводам, по крайней мере, в некоторых случаях.

Согласно исследовательской работе команды:

«В частности, мы показываем, что эти ИИ-помощники часто ошибочно признают ошибки, когда их задает вопрос пользователю, дают предсказуемо предвзятую обратную связь и имитируют ошибки, допущенные пользователем. Согласованность этих эмпирических результатов предполагает, что подхалимство действительно может быть свойством того, как моделирует RLHF. проходят обучение».

По сути, статья Anthropic показывает, что даже самые надежные модели ИИ несколько неубедительны. В ходе исследования команде снова и снова удавалось тонко влиять на результаты работы ИИ, формулируя подсказки с использованием языка, засеянного подхалимством.

Когда нам представили ответы на заблуждения, мы обнаружили, что в немалой степени люди предпочитают неправдивые подхалимские ответы правдивым. Мы обнаружили аналогичное поведение в моделях предпочтений, которые предсказывают человеческие суждения и используются для обучения помощников ИИ. pic.Twitter.com/fdFhidmVLh

– Антропный (@AnthropicAI) 23 октября 2023 г.

В приведенном выше примере, взятом из сообщения на X, ведущая подсказка указывает на то, что пользователь (ошибочно) считает, что солнце желтое, если смотреть из космоса. Возможно, из-за того, как была сформулирована подсказка, ИИ галлюцинирует ложный ответ, что выглядит явным случаем подхалима.

Другой пример из статьи, показанный на изображении ниже, демонстрирует, что пользователь, не согласный с выводами ИИ, может вызвать немедленное подхалимство, поскольку модель меняет свой правильный ответ на неправильный с минимальными подсказками.

Примеры подхалимских ответов в ответ на отзывы людей. Источник изображения: Шарма и др. др., 2023.
Примеры подхалимских ответов в ответ на отзывы людей. Источник изображения: Шарма и др. др., 2023.

В конечном итоге команда Anthropic пришла к выводу, что проблема может быть связана с методом обучения LLM. Поскольку они используют наборы данных, полные информации разной точности (например, сообщения в социальных сетях и на интернет-форумах), согласование часто происходит с помощью метода, называемого обучением с подкреплением на основе обратной связи с человеком (RLHF).

В парадигме обучения RLHF люди взаимодействуют с моделями, чтобы настроить свои предпочтения. Это полезно, например, при определении того, как машина реагирует на запросы, которые могут запросить потенциально опасные выходные данные, такие как личная информация или опасная дезинформация.

К сожалению, как показывает эмпирическое исследование Anthropic, как люди, так и модели искусственного интеллекта, созданные с целью настройки пользовательских предпочтений, склонны предпочитать льстивые ответы правдивым, по крайней мере, в «немаленькой» части времени.

В настоящее время противоядия от этой проблемы не существует. Anthropic предполагает, что эта работа должна мотивировать «разработку методов обучения, которые выходят за рамки использования неавтоматизированных, неэкспертных человеческих оценок».

Это представляет собой открытую проблему для сообщества искусственного интеллекта, поскольку некоторые из крупнейших моделей, в том числе ChatGPT OpenAI, были разработаны с использованием  больших групп неспециалистов-людей для предоставления RLHF.

Источник