Вчера OpenAI – создатель ChatGPT – анонсировал Sora, и это произвело фурор в Интернете. Sora — это новая модель искусственного интеллекта компании, предназначенная для создания видео из текстовых подсказок.
Вероятно, именно поэтому за последние 24 часа вы увидели в Твиттере кучу высококачественных видеороликов.
вот сора, наша модель генерации видео: https://t.co/CDr4DdCrh1
сегодня мы начинаем объединяться в красную команду и предлагаем доступ ограниченному числу авторов. @_tim_brooks @billpeeb @model_mechanic действительно невероятны; потрясающая работа их и команды.
замечательный момент.
– Сэм Альтман (@sama) 15 февраля 2024 г.
В выпуске приняли участие некоторые из самых популярных интернет-личностей, в том числе Маркес Браунли, MrBeast, Илон Маск и многие, многие другие.
И хотя волнений много, остается столько же вопросов без ответов, поэтому давайте углубимся в то, что такое Сора и что мы знаем на данный момент.
Что такое Сора?
Если ChatGPT — это модель чата OpenAI, то Sora — это «модель искусственного интеллекта, которая может создавать реалистичные и творческие сцены из текстовых инструкций».
По сути, это преобразование текста в видео. Подсказываешь ему инструкции, и он выдаёт якобы качественное видео длительностью до одной минуты.
Примеров уже было много. Например, MrBeast ответил на вступительный твит Сэма Альтмана, попросив его создать видео «обезьяны, играющей в шахматы в парке».
Вот каким было финальное видео:
pic.Twitter.com/vb9giSg9np
– Сэм Альтман (@sama) 15 февраля 2024 г.
На первый взгляд, видео выглядит удивительно хорошо сделанным в высоком разрешении, с потрясающими визуальными эффектами и без видимых дефектов. При ближайшем рассмотрении видно, что шахматная доска не пропорциональна размеру фигур, но помимо этого, что, как мы полагаем, легко исправляется дополнительными подсказками, видео выглядит добротно.
Официальный сайт дает следующее объяснение модели и намерений OpenAI в отношении нее:
Мы учим ИИ понимать и моделировать физический мир в движении с целью обучения моделей, которые помогут людям решать проблемы, требующие взаимодействия в реальном мире.
На сайте также опубликован подробный технический отчет. Пользователи могут найти дополнительную информацию здесь.
Что дальше?
OpenAI признает, что Sora в своей текущей версии не лишена недостатков:
У него могут возникнуть проблемы с точным моделированием физики сложной сцены, и он может не понимать конкретные случаи причины и следствия. Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса.
Кроме того, в нем также могут быть перепутаны пространственные детали подсказки — он может смешивать лево и право и находить сложности с другими точными описаниями.
Команда также заявила, что создает набор инструментов, которые помогут обнаружить вводящий в заблуждение контент.
Доступна ли Сора для публики?
Мы начнем с первого и главного вопроса, который, возможно, интересует большую часть пользователей ChatGPT.
Если быть максимально точным – нет, Сора пока не доступна широкой публике. Альтман поделился, что инструмент для преобразования текста в видео в настоящее время находится в руках лишь нескольких авторов.
Точных сроков, когда модель будет представлена широкой публике, нет.
Источник