Согласно сообщению в блоге от 16 ноября, гигант социальных сетей Meta представил свои новейшие модели искусственного интеллекта (ИИ) для редактирования и создания контента.

Компания представляет две генеративные модели на базе искусственного интеллекта. Первый, Emu Video, который использует предыдущую модель Emu Meta, способен генерировать видеоклипы на основе ввода текста и изображений. Вторая модель, Emu Edit, ориентирована на манипулирование изображениями и обещает большую точность редактирования изображений.

Модели все еще находятся на стадии исследования, но в Meta говорят, что их первоначальные результаты показывают потенциальные варианты использования как для создателей, художников, так и для аниматоров.

Meta отображает свою новую генеративную модель Emu Edit. Источник: Мета
Meta отображает свою новую генеративную модель Emu Edit. Источник: Мета

Согласно сообщению в блоге Metas, Emu Video обучался с помощью «факторизованного» подхода, разделив процесс обучения на два этапа, чтобы модель могла реагировать на различные входные данные:

«Мы разделили процесс на два этапа: сначала генерируем изображения с учетом текстовой подсказки, а затем генерируем видео с учетом как текста, так и сгенерированного изображения. Этот «факторизованный» или разделенный подход к генерации видео позволяет нам обучать генерации видео. эффективно моделировать».

На основе текстовой подсказки эта же модель может «анимировать» изображения. По словам Meta, вместо того, чтобы полагаться на «глубокий каскад моделей», Emu Video использует только две диффузионные модели для создания четырехсекундных видеороликов размером 512x512 со скоростью 16 кадров в секунду.

Emu Edit, ориентированный на манипулирование изображениями, позволит пользователям удалять или добавлять фон к изображениям, выполнять преобразования цвета и геометрии, а также локальное и глобальное редактирование изображений.

«Мы утверждаем, что основной целью не должно быть просто создание «правдоподобного» изображения. Вместо этого модель должна сосредоточиться на точном изменении только пикселей, соответствующих запросу на редактирование», — отметила Meta, заявив, что ее модель способна точно следовать инструкции:

«Например, при добавлении текста «Алоха!» на бейсболку сама кепка должна оставаться неизменной».

Мета-обученный Emu Edit с использованием задач компьютерного зрения с набором данных из 10 миллионов синтезированных изображений, каждое из которых имеет входное изображение и описание задачи, а также целевое выходное изображение. «Мы считаем, что это самый большой набор данных такого рода на сегодняшний день», — заявили в компании.

Недавно выпущенная модель Emu компании Metas была обучена с использованием 1,1 миллиарда фрагментов данных, включая фотографии и подписи, опубликованные пользователями в Facebook и Instagram, сообщил генеральный директор Марк Цукерберг во время мероприятия Meta Connect в сентябре.

Регулирующие органы внимательно изучают инструменты Metas на базе искусственного интеллекта, что приводит к осторожному подходу к их внедрению со стороны технологической компании. Недавно Meta сообщила, что не позволит политическим кампаниям и рекламодателям использовать свои инструменты искусственного интеллекта для создания рекламы в Facebook и Instagram. Однако общие правила рекламы платформы не включают каких-либо правил, касающихся конкретно ИИ.

Источник