ИИ Microsoft способен имитировать голос человека по трехсекундному образцу - «Новости» » Основы Интернет

ИИ Microsoft способен имитировать голос человека по трехсекундному образцу - «Новости»

10:30, 13-янв-2023
Новости / Изображения / Текст / Блог для вебмастеров / Преимущества стилей / Заработок / Отступы и поля / Самоучитель CSS / Вёрстка / Сайтостроение
Cook
0

Создатели называют VALL-E «языковой моделью нейронных кодеков» (neural codec language model) и полагают, что новинку можно будет использовать для работы высококачественных text-to-speech приложений, редактирования речи, когда запись речи может быть отредактирована и изменена из текстовой расшифровки (то есть человек «скажет» то, чего изначально не говорил), а также создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 (стоящая за нашумевшим ChatGPT).

VALL-E строится на базе технологии EnCodec, которую Meta* анонсировала в октябре 2022 года. В отличие от других методов преобразования текста в речь, VALL-E генерирует дискретные коды аудиокодеков из текста и полученных акустических подсказок. По сути, VALL-E анализирует, как звучит человек, благодаря EnCodec разбивает эту информацию на дискретные компоненты (называемые «токенами») и использует обучающие данные, сопоставляя то, что «знает» о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца.

Специалисты Microsoft обучали VALL-E синтезу речи на звуковой библиотеке LibriLight, которая содержит 60 000 часов англоязычной речи более чем 7 000 носителей (в основном взятых из общедоступных аудиокниг на LibriVox). Чтобы VALL-E показывала хороший результат, голос в трехсекундном образце должен быть похож на голос из этих обучающих данных.

На специальном сайте Microsoft приводит десятки примеров работы VALL-E. Интересно, что помимо сохранения тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» из аудиообразца. То есть, если сэмпл взят, к примеру, из телефонного звонка, версия VALL-E тоже может звучать как запись звонка, со всеми соответствующими искажениями и нюансами.

Так как VALL-E явно может использоваться для самых разных злоупотреблений и мошенничества, пока Microsoft не публикует исходный код своей разработки и отмечает, что в будущем можно создать модель для обнаружения аудиоконтента, сгенерированного при помощи VALL-E.

* Meta Platforms признана экстремистской организацией и ее деятельность запрещена в России

Инженеры Microsoft представили модель искусственного интеллекта для преобразования текста в речь (text-to-speech) под названием VALL-E. Она способна имитировать голос человека, опираясь лишь на трехсекундный звуковой образец. Разработчики утверждают, что VALL-E может синтезировать аудио, где «выученный» голос что-либо говорит, при этом сохранив даже эмоциональную окраску. Создатели называют VALL-E «языковой моделью нейронных кодеков» (neural codec language model) и полагают, что новинку можно будет использовать для работы высококачественных text-to-speech приложений, редактирования речи, когда запись речи может быть отредактирована и изменена из текстовой расшифровки (то есть человек «скажет» то, чего изначально не говорил), а также создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 (стоящая за нашумевшим ChatGPT). VALL-E строится на базе технологии EnCodec, которую Meta* анонсировала в октябре 2022 года. В отличие от других методов преобразования текста в речь, VALL-E генерирует дискретные коды аудиокодеков из текста и полученных акустических подсказок. По сути, VALL-E анализирует, как звучит человек, благодаря EnCodec разбивает эту информацию на дискретные компоненты (называемые «токенами») и использует обучающие данные, сопоставляя то, что «знает» о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца. Специалисты Microsoft обучали VALL-E синтезу речи на звуковой библиотеке LibriLight, которая содержит 60 000 часов англоязычной речи более чем 7 000 носителей (в основном взятых из общедоступных аудиокниг на LibriVox). Чтобы VALL-E показывала хороший результат, голос в трехсекундном образце должен быть похож на голос из этих обучающих данных. На специальном сайте Microsoft приводит десятки примеров работы VALL-E. Интересно, что помимо сохранения тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» из аудиообразца. То есть, если сэмпл взят, к примеру, из телефонного звонка, версия VALL-E тоже может звучать как запись звонка, со всеми соответствующими искажениями и нюансами. Так как VALL-E явно может использоваться для самых разных злоупотреблений и мошенничества, пока Microsoft не публикует исходный код своей разработки и отмечает, что в будущем можно создать модель для обнаружения аудиоконтента, сгенерированного при помощи VALL-E. * Meta Platforms признана экстремистской организацией и ее деятельность запрещена в России

Цитирование статьи, картинки - фото скриншот - Rambler News Service.

Иллюстрация к статье - Яндекс. Картинки.

Есть вопросы. Напишите нам.

Общие правила поведения на сайте.

Другие новости

Комментарии (0)

Уважаемый посетитель нашего сайта!
Комментарии к данной записи отсутсвуют. Вы можете стать первым!

✔ Новости мира Интернет

Журналисты доказали использование миллионов защищённых..

14:31, 18-июн-2026
Новости мира Интернет
Boolman
0

Издание The Atlantic нашло неоспоримые доказательства использования миллионов охраняемых авторским правом музыкальных записей для обучения нейросетей. В списки попали...

Игроки Crusader Kings 3 смогут почувствовать себя Папой..

14:30, 18-июн-2026
Новости мира Интернет
Надежда
0

Издательство Paradox Interactive и разработчики из Paradox Development Studio объявили дату выхода By God Alone — следующего крупного дополнения к своей исторической...

AMD лишила потребительские процессоры шифрования памяти и..

14:30, 18-июн-2026
Новости мира Интернет
Демид
0

AMD без объяснения причин отключила в потребительских процессорах технологию шифрования памяти TSME, но представители компании отказались комментировать происходящее, в...

NASA впервые выбрало частника для доставки приборов к Марсу..

14:30, 18-июн-2026
Новости мира Интернет
Fabe
0

Под руководством нового главы NASA — миллиардера Джареда Айзекмана (Jared Isaacman) — агентство ускоряет вовлечение бизнеса в глобальные космические программы....

Группировка Hive0117 атакует бухгалтеров компаний в России и странах СНГ -..

Специалисты компании F6 сообщили о новой волне атак группировки Hive0117. Злоумышленники нацелились на бухгалтеров компаний …...

Новости

Афоризмы

Самоучитель CSS

Обратная связь

Основы Интернет - технологий.

Будьте в курсе всех технологий.

Новости

Афоризмы

Самоучитель CSS

Обратная связь

Другие новости

Рекомендуем

Комментарии (0)

Похожие новости дня

Видео уроки

Популярное

✔ Новости мира Интернет

ВАША РЕКЛАМА

Разное но интересное