25 августа 2023 , Обновлено 27 августа 2023
SSML (Speech Synthesis Markup Language) - это разметочный язык, который используется для описания текста, предназначенного для синтеза речи нейросетями.
Для чего он? С его помощью можно контролировать интонацию, акценты, произношение, добавлять паузы и другие аудиоэффекты. Это делает сгенерированную речь более живой и выразительной.
Цели использования: Главная цель — придание синтезированной речи естественности и выразительности. Также SSML обеспечивает более точное произношение цифр, дат, номеров телефонов и другой специфической информации.
Кто стоит за этим? SSML была разработана организацией World Wide Web Consortium (W3C), ответственной за стандарты веба.
Какова его миссия? SSML призван стандартизировать и улучшить методы синтеза речи в цифровом пространстве.
Документация по SSML на официальном сайте W3C: https://www.w3.org/TR/speech-synthesis/
Теги SSML обычно обрамляются угловыми скобками, как в HTML. Пример: <speak>текст</speak>.
Как правило, должен быть открывающий и закрывающий тег (исключение - <break>).
Внутри тегов вы можете использовать атрибуты для настройки параметров произношения.
Некоторые теги могут быть вложенными друг в друга.
Синтаксис тегов и атрибутов SSML подчиняется стандарту XML.
Звукограм поддерживает основные популярные SSML-теги. Часть из голосов могут не подчиняться некоторым атрибутам тегов, об этом указано в документации к конкретному параметру.
Далее представлен список основных тегов с ссылкой на подробную документацию по каждому.
Это самый популярный тег на Звукограме. С его помощью можно регулировать длительность паузы.
Основной SSML-тег с множеством настроек - это say-as. Он управляет озвучкой информации различного типа.
Документация по количественным числительным.
Документация по порядковым числительным.
Документация по произношению дат.
Документация по озвучке времени.
Документация по запикиванию цензурой.
Alias является значением тега sub. С его помощью одно слово можно прочитать другим. Часто длинные названия им оформляют в аббревиатуру.
Этот тег управляет тоном, громкостью и скоростью озвучивания. Применяется только к целому предложению.
Emphasis - это упрощённая версия Prosody. Также применяется только к предложению целиком.
Это самый мощный способ коррекции произношения. При помощи международного фонетического словаря можно записать произношение слова по звукам. Посмотрите пример.