Xiaomi выпустила нейросеть, которая генерирует речь на почти всех языках мира

Китайская технологическая компания Xiaomi 8 мая 2026 года официально анонсировала OmniVoice – открытую модель искусственного интеллекта для преобразования текста в речь, которая, по заявлениям разработчиков, является первой в отрасли системой клонирования голоса со столь широким языковым охватом и при этом отличается рекордной производительностью.

Нейросеть способна работать почти со всеми языками мира, включая редкие и малоресурсные, а также генерирует речь со скоростью, в 40 раз превышающей реальное время.

О выходе новинки сообщили в пресс-службе компании, а технические подробности были опубликованы в сопроводительной документации разработчиков.

Человек с ноутбуком
Фото: Pixabay / Человек с ноутбуком

В ходе тестов на 102 языках разборчивость синтезированной речи оказалась сопоставима с человеческой, а на 24 наиболее популярных языках модель превзошла существующие коммерческие аналоги по качеству и естественности звучания.

Ключевое отличие OmniVoice от предшественников заключается в принципиально упрощённой архитектуре.

Вместо сложной цепочки из нескольких модулей и этапов прогнозирования здесь применяется единая двунаправленная нейросеть-трансформер.

Это позволило добиться колоссального прироста производительности: модель способна обработать 100 тысяч часов данных всего за один день обучения.

Высокая эффективность достигается за счёт двух инновационных решений.

Во-первых, был применён «метод случайного скрытия акустических кодов», который значительно повысил качество обучения.

Во-вторых, на этапе предварительного обучения модель интегрировали с большой языковой моделью, что позволило добиться безупречной точности произношения и разборчивости.

Помимо технических характеристик, OmniVoice предлагает пользователям гибкие инструменты управления голосом.

Функция гибкого создания позволяет задать желаемые характеристики – возраст, пол, акцент, высоту тона и стиль – без необходимости иметь эталонный образец речи.

Это открывает широкие возможности для кастомизации голосовых ассистентов и персонажей.

Модель также эффективно удаляет фоновый шум и извлекает чистый голос, позволяя клонировать речь даже с низкокачественных записей.

Нейросеть генерирует естественные звуки – вздохи, смех, интонационные паузы, что делает синтезированную речь практически неотличимой от живой.

Для сложных случаев произношения, таких как многозначные китайские иероглифы или иностранные имена собственные, предусмотрена возможность ручной тонкой настройки.

OmniVoice уже доступна для скачивания на платформах Hugging Face, GitHub и ModelScope.

По мнению экспертов, высокая скорость работы и низкие требования к вычислительным ресурсам делают модель идеальной для массовых потребительских приложений, от голосовых помощников до систем навигации и аудиокниг.

Выход открытой модели такого уровня, как ожидается, способен существенно ускорить развитие технологий синтеза речи во всём мире.

Виталий Кистерный Автор: Виталий Кистерный главный редактор сетевого издания Белновости

Новости по теме: