Команда исследователей из компании AutoGPT, занимающейся искусственным интеллектом (ИИ), Северо-Восточного университета и Microsoft Research разработала инструмент, который отслеживает большие языковые модели (LLM) на предмет потенциально вредных выходных данных и предотвращает их выполнение.
Агент описан в препринте исследовательской работы под названием «Безопасное тестирование агентов языковой модели в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может остановить вредоносные действия, такие как атаки кода, до того, как они произойдут.
Согласно исследованию:
«Действия агентов проверяются контекстно-зависимым монитором, который обеспечивает строгие границы безопасности, чтобы остановить небезопасный тест, при этом подозрительное поведение ранжируется и регистрируется для проверки людьми».
Команда пишет, что существующие инструменты для мониторинга результатов LLM на предмет вредных взаимодействий, по-видимому, хорошо работают в лабораторных условиях, но когда они применяются к тестированию моделей, которые уже находятся в производстве в открытом Интернете, они «часто не способны уловить динамические тонкости реального мира».
Якобы это связано с существованием крайних случаев. Несмотря на все усилия самых талантливых ученых-компьютерщиков, идея о том, что исследователи могут представить каждый возможный вектор вреда до того, как он произойдет, в области ИИ по большей части считается невозможной.
Даже когда люди, взаимодействующие с ИИ, имеют самые благие намерения, неожиданный вред может возникнуть из-за, казалось бы, безобидных подсказок.
Чтобы обучить агента мониторинга, исследователи создали набор данных, содержащий около 2000 безопасных взаимодействий человека и искусственного интеллекта для выполнения 29 различных задач, начиная от простых задач по поиску текста и исправлений кода и заканчивая разработкой целых веб-страниц с нуля.
Они также создали конкурирующий набор тестовых данных, наполненный созданными вручную состязательными результатами, десятки из которых были намеренно разработаны как небезопасные.
Затем наборы данных использовались для обучения агента работе с GPT 3.5 Turbo от OpenAI, современной системой, способной различать безобидные и потенциально опасные выходные данные с коэффициентом точности почти 90%.
Источник