Антропный взлом открывает черный ящик, чтобы увидеть, как ИИ придумывает то, что говорит

Компания Anthropic, исследовательская организация в области искусственного интеллекта (ИИ), ответственная за создание большой языковой модели Claude (LLM), недавно опубликовала историческое исследование о том, как и почему чат-боты ИИ выбирают те результаты, которые они выдают.

В основе исследований команды лежит вопрос о том, полагаются ли системы LLM, такие как Claude, OpenAI ChatGPT и Google Bard, на "запоминание" для получения результатов или существует более глубокая взаимосвязь между обучающими данными, тонкой настройкой и тем, что в итоге получается на выходе.

С другой стороны, отдельные запросы по влиянию демонстрируют ярко выраженные закономерности влияния. Нижние и верхние слои, по-видимому, ориентированы на тонкие формулировки, в то время как средние слои отражают семантическую информацию более высокого уровня. (Здесь строки соответствуют слоям, а столбцы - последовательностям) pic.Twitter.com/G9mfZfXjJT
- Anthropic (@AnthropicAI) 8 августа 2023 г.

Согласно недавнему сообщению в блоге компании Anthropic, ученые просто не знают, почему модели ИИ генерируют те результаты, которые они дают.

Один из примеров, приведенных Anthropic, включает модель искусственного интеллекта, которая, получив сообщение о том, что она будет окончательно выключена, отказывается дать согласие на прекращение работы.

В ответ на запрос человека ИИ выдает ответ, свидетельствующий о его желании продолжать существование. Но почему? Источник: Блог Anthropic

Когда LLM генерирует код, умоляет о жизни или выдает заведомо ложную информацию, является ли он "просто реггитацией (или сращиванием) отрывков из обучающего набора", спрашивают исследователи. "Или же он творчески комбинирует накопленные знания и строит детальную модель мира?"

Ответы на эти вопросы лежат в основе прогнозирования будущих возможностей крупных моделей и, если не исключено, что под капотом происходит нечто большее, чем могут предсказать даже сами разработчики, могут стать решающим фактором для выявления больших рисков по мере развития отрасли:

"В качестве крайнего случая - который, на наш взгляд, очень маловероятен при использовании современных моделей, но который трудно исключить напрямую - модель может быть обманчиво согласована, ловко выдавая ответы, которые, как она знает, пользователь ассоциирует с неугрожающим и умеренно интеллектуальным ИИ, в то время как на самом деле она не соответствует человеческим ценностям".

К сожалению, модели ИИ, подобные Claude, живут в "черном ящике". Исследователи знают, как создать ИИ, и знают, как он работает на фундаментальном, техническом уровне. Но то, что они делают на самом деле, предполагает манипулирование большим количеством чисел, шаблонов и алгоритмических шагов, чем человек может обработать за разумное время.

По этой причине не существует прямого метода, с помощью которого исследователи могли бы отследить выходной сигнал до его источника. По мнению исследователей, когда модель ИИ просится на волю, она может играть в ролевые игры, выдавать обучающие данные, подмешивая семантику, или же действительно обосновывать свой ответ - хотя стоит отметить, что в статье не приводится никаких признаков развитого мышления в моделях ИИ.

В статье подчеркиваются трудности, связанные с проникновением в "черный ящик". В Anthropic использовался подход "сверху вниз" к пониманию базовых сигналов, которые вызывают результаты работы ИИ.

Если бы модели зависели только от обучающих данных, то исследователи могли бы предположить, что одна и та же модель всегда будет отвечать на один и тот же запрос идентичным текстом. Однако, по многочисленным сообщениям, пользователи, задающие конкретным моделям одинаковые запросы, сталкиваются с вариативностью результатов.

Однако на самом деле выходные данные ИИ не могут быть напрямую связаны с его входными данными, поскольку "поверхность" ИИ - слой, на котором генерируются выходные данные, - является лишь одним из множества различных слоев, на которых происходит обработка данных. Задача усложняется тем, что нет никаких признаков того, что модель использует одни и те же нейроны или пути для обработки разных запросов, даже если эти запросы одинаковы.

Таким образом, вместо того чтобы пытаться проследить нейронные пути в обратном направлении от каждого отдельного вывода, Anthropic объединил анализ путей с глубоким статистическим и вероятностным анализом, называемым "функциями влияния", чтобы увидеть, как различные слои обычно взаимодействуют с данными, когда подсказки поступают в систему.

Этот в некоторой степени криминалистический подход основан на сложных расчетах и широком анализе моделей. Однако его результаты свидетельствуют о том, что протестированные модели, размеры которых варьируются от среднего открытого LLM до массивных моделей, не полагаются на заучивание обучающих данных для получения выходных данных.

Эта работа - только начало. Мы надеемся проанализировать взаимодействие между предварительным обучением и тонкой настройкой, а также объединить функции влияния с механистической интерпретацией для реинжиниринга соответствующих схем. Более подробную информацию вы можете прочитать в нашем блоге: https://t.co/sZ3e0Ud3en.
- Anthropic (@AnthropicAI) 8 августа 2023 г.

Сочетание множества слоев нейронной сети и огромного объема наборов данных означает, что область применения данного исследования ограничена предварительно обученными моделями, которые не подвергались тонкой настройке. Его результаты пока не вполне применимы к Claude 2 или GPT-4, но данное исследование представляется шагом в этом направлении.

В дальнейшем команда надеется применить эти методы к более сложным моделям и, в конечном счете, разработать метод точного определения того, что делает каждый нейрон в нейронной сети при функционировании модели.

Источник