Компанія Xiaomi оголосила про запуск нової моделі клонування голосу, яка підтримує 646 мов. Цей інноваційний продукт став результатом тривалих досліджень у сфері штучного інтелекту та обробки природної мови. Завдяки цій технології користувачі зможуть створювати точні копії своїх голосів для використання в різних сферах – від розваг до бізнесу. Модель клонування голосу здатна не лише імітувати звучання, а й передавати емоції та інтонацію, що відкриває нові можливості для комунікації
Xiaomi випустила OmniVoice — модель штучного інтелекту для клонування голосу, яка підтримує 646 мов, зокрема найрідкісніші, для яких майже не існує навчальних даних. Розробка повністю відкрита для всіх охочих.
Для коректної вимови складних слів модель використовує великі мовні моделі — за принципом, схожим на ChatGPT. В основі навчання — 50 відкритих наборів голосових даних загальним обсягом 580 тисяч годин аудіозаписів різними мовами світу.
Одна з ключових можливостей OmniVoice — клонування голосу з будь-якого зразка. Достатньо записати, як говорить людина, і модель відтворить цей голос іншою мовою. Це відкриває широкі можливості для локалізації контенту та озвучення.
Окрім клонування, інструмент дозволяє описати бажаний голос текстом — наприклад, «чоловік середнього віку з низьким голосом» — і отримати синтезований результат. Також підтримується додавання емоційних відтінків: сміху, зітхань або шепоту.
Серед додаткових функцій — виправлення неправильної вимови та очищення фонових шумів у записах. Це робить OmniVoice корисним інструментом не лише для генерації, а й для редагування аудіо.
Код моделі, навчальні дані та готові ваги розміщені у відкритому доступі на GitHub і Hugging Face. Там само доступна демоверсія, яку можна протестувати без жодного встановлення.