Способности ChatGPT ухудшаются с возрастом, утверждает новое исследование

Чатбот ChatGPT компании OpenAI, работающий на базе искусственного интеллекта, похоже, становится все хуже и хуже, и исследователи никак не могут понять причину этого.

В исследовании, проведенном 18 июля, ученые из Стэнфорда и Калифорнийского университета в Беркли обнаружили, что новейшие модели ChatGPT стали гораздо хуже давать точные ответы на идентичную серию вопросов в течение нескольких месяцев.

Авторы исследования не смогли дать четкого ответа на вопрос, почему ухудшились возможности ИИ-чатбота.

Для проверки надежности различных моделей ChatGPT три исследователя, Линьцзяо Чен, Матей Захария и Джеймс Зоу, попросили модели ChatGPT-3.5 и ChatGPT-4 решить ряд математических задач, ответить на деликатные вопросы, написать новые строки кода и провести пространственные рассуждения по подсказкам.

Мы оценили поведение #ChatGPT с течением времени и обнаружили существенные различия в ответах на *одинаковые вопросы* между июньскими версиями GPT4 и GPT3.5 и мартовскими версиями. Новые версии стали хуже справляться с некоторыми заданиями. с Линьцзяо Ченом @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.Twitter.com/FEiqrUVbg6
- Джеймс Цзоу (@james_y_zou) 19 июля 2023 г.

Согласно результатам исследования, в марте ChatGPT-4 был способен определять простые числа с точностью 97,6%. В том же тесте, проведенном в июне, точность GPT-4 упала до 2,4%.

Напротив, более ранняя модель GPT-3.5 за тот же срок улучшила показатели идентификации простых чисел.

Что касается генерации строк нового кода, то в период с марта по июнь возможности обеих моделей существенно ухудшились.

Исследование также показало, что ответы ChatGPT на щекотливые вопросы - в некоторых примерах они касались этнической и гендерной принадлежности - впоследствии стали более лаконичными, отказываясь отвечать.

В предыдущих версиях чатбота приводились подробные обоснования того, почему он не может ответить на те или иные деликатные вопросы. Однако в июне модели просто извинились перед пользователем и отказались отвечать.

"Поведение одного и того же сервиса [большой языковой модели] может существенно измениться за относительно короткий промежуток времени", - пишут исследователи, отмечая необходимость постоянного мониторинга качества моделей ИИ.

Исследователи рекомендуют пользователям и компаниям, которые используют LLM-сервисы в качестве компонента своего рабочего процесса, внедрять определенную форму анализа мониторинга, чтобы убедиться в том, что чатбот не теряет своей работоспособности.

6 июня компания OpenAI объявила о планах по созданию группы, которая будет заниматься управлением рисками, которые могут возникнуть в результате создания сверхинтеллектуальной системы искусственного интеллекта, появление которой ожидается в течение десятилетия.

AI Eye: ИИ, обученные на ИИ-контенте, выходят на MAD, является ли Threads лидером по потерям для ИИ-данных?

Источник