Компания Meta AI недавно представила "прорывной" генератор преобразования текста в речь (TTS), который, по ее утверждению, выдает результаты в 20 раз быстрее, чем современные модели искусственного интеллекта с аналогичной производительностью.

Новая система, получившая название Voicebox, отказывается от традиционной архитектуры TTS в пользу модели, более схожей с OpenAI`s ChatGPT или Google`s Bard.

Среди основных отличий Voicebox от аналогичных моделей TTS, таких как ElevenLabs Prime Voice AI, является то, что предложение Meta`s может обобщать посредством внутриконтекстного обучения.

Подобно ChatGPT и другим моделям трансформации, Voicebox использует большие наборы данных для обучения. Предыдущие попытки использовать огромные массивы аудиоданных привели к серьезному ухудшению качества звука. По этой причине большинство систем TTS используют небольшие, тщательно очищенные, маркированные наборы данных.

Meta преодолевает это ограничение с помощью новой схемы обучения, которая отказывается от меток и кураторства в пользу архитектуры, способной "заполнять" аудиоинформацию.

Как говорится в сообщении Meta AI в блоге от 16 июня, Voicebox - это "первая модель, которая может обобщать задачи генерации речи, для выполнения которых она не была специально обучена, с самой современной производительностью".

Это позволяет Voicebox переводить текст в речь, удалять нежелательные шумы, синтезируя заменяющую речь, и даже применять голос диктора к различным языковым выходам.

Согласно сопроводительной научной статье, опубликованной компанией Meta, ее предварительно обученная система Voicebox может выполнить все это, используя только желаемый текст и трехсекундный аудиоклип.

Появление надежной генерации речи происходит в особенно чувствительное время, поскольку компании социальных сетей продолжают бороться с модерацией, а в США приближающиеся президентские выборы грозят еще раз проверить пределы обнаружения дезинформации в Интернете.

Бывший президент США Дональд Трамп, например, в настоящее время сталкивается с обвинениями в том, что он неправомерно распорядился конфиденциальными правительственными материалами после ухода с поста. Среди предполагаемых доказательств, приведенных в деле против него, есть аудиозаписи, на которых он якобы признается в возможных правонарушениях.

Хотя в настоящее время нет никаких признаков того, что бывший президент намерен отрицать содержание, описанное в аудиофайлах, его дело иллюстрирует, что целостность данных лежит в основе правовой системы США и, как следствие, ее демократии.

Voicebox - не первый инструмент такого рода, но, похоже, один из самых надежных. В связи с этим Meta`s разработала инструмент для определения того, была ли речь сгенерирована им, который, как утверждает компания, может "тривиально обнаружить" разницу между настоящим и поддельным аудио. Согласно сообщению в блоге:

"Как и в случае с другими мощными инновациями в области ИИ, мы признаем, что эта технология несет в себе потенциал для неправильного использования и непреднамеренного вреда. В нашей статье мы подробно рассказываем о том, как мы создали высокоэффективный классификатор, который может отличить подлинную речь от аудио, созданного с помощью Voicebox, чтобы уменьшить эти возможные будущие риски".

В криптовалютном мире ИИ стал такой же неотъемлемой частью повседневной деятельности большинства предприятий, как интернет или электричество. Крупнейшие биржи используют чат-боты с искусственным интеллектом для взаимодействия с клиентами и анализа настроений, а торговые боты стали обычным явлением.

Появление надежных систем преобразования текста в речь, таких как Voicebox, в сочетании с автоматизированной торговлей может помочь устранить пробел для начинающих криптовалютных трейдеров, которые полагаются на системы TTS, которые в настоящее время могут испытывать трудности с крипто-жаргоном или мультиязычной поддержкой.

Источник