Интересно BASE TTS: Amazon создает самую большую модель преобразования текста в речь

Sepultura_North

Support Gourmet inc
Seller
Ровный
Мес†ный
Регистрация
17 Окт 2015
Сообщения
11.613
Репутация
4.228
Реакции
15.369

BMWRC-news.gif

BASE TTS: Amazon создает самую большую модель преобразования текста в речь​

16:35 / 19 февраля, 2024

Технология не будет доступна для широкого использования из-за этических соображений.
image

Команда исследователей искусственного интеллекта из Amazon - американская технологическая компания, одна из крупнейших в мире, основанная в 1994 году. Она начала свою деятельность как интернет-магазин, специализирующийся на продаже книг. Однако со временем компания значительно расширила свой ассортимент и теперь предлагает широкий спектр товаров и услуг.

Сейчас Amazon - одна из ведущих платформ для электронной коммерции, где пользователи могут приобретать товары различных категорий, включая электронику, моду, бытовую технику, косметику, книги, игры, музыку и многое другое.

Компания также предоставляет услуги облачных технологий Amazon Web Services, цифрового контента Amazon Prime Video, Amazon Music и потоковой передачи медиа Amazon Prime.
Amazon AGI объявила о разработке крупнейшей на сегодняшний день модели преобразования текста в речь. Под крупнейшей подразумевается модель с наибольшим количеством параметров и обученная на самом большом наборе данных. Исследователи опубликовали статью на сервере препринтов arXiv, в которой описали процесс разработки и обучения модели.

Модели искусственного интеллекта вроде ChatGPT привлекли внимание своей способностью разумно отвечать на вопросы и создавать сложные тексты на человеческом языке. Но ИИ продолжает проникать и в другие сферы применения. В этом новом исследовании ученые пытались улучшить возможности приложения для преобразования текста в речь за счет увеличения количества параметров модели и расширения базы для ее обучения.
Новая модель, названная BIG Adaptive Streamable TTS with Emergent abilities (BASE TTS), содержит 980 миллионов параметров и была обучена на 100 000 часов записей речи (найденных на открытых ресурсах), большая часть которых на английском языке. Также команда предоставила модели примеры произнесения слов и фраз на других языках, чтобы она могла корректно произносить известные выражения при их обнаружении, например «au contraire» или «adios, amigo».
Исследователи из Amazon также тестировали модель на меньших наборах данных, надеясь выявить случаи возникновения так называемых эмерджентных свойств, когда ИИ вдруг начинает демонстрировать более высокий уровень интеллекта. Они обнаружили, что для их приложения такой скачок произошел при использовании среднего по размеру набора данных в 150 миллионов параметров.
Также было отмечено, что скачок затронул множество аспектов языка, таких как способность использовать сложные существительные, выражать эмоции, применять иноязычные слова, паралингвистические средства, знаки препинания и корректно расставлять ударения в вопросительных предложениях.
Команда сообщает, что модель BASE TTS не будет выпущена для широкого использования из-за опасений неэтичного применения. Вместо этого они планируют использовать ее в качестве обучающей с целью улучшения естественного звучания синтезированной речи в приложениях в целом.
 
О, красавцы, шагаем вперёд, как говорится, нога со временем.
 
Назад
Сверху Снизу