26 августа 2023 , Обновлено 27 августа 2023
Тег <prosody> предназначен для контроля над такими атрибутами синтеза речи, как: pitch высота, volume громкость и rate скорость речи.
Это руководство подробно объяснит, как использовать тег <prosody>, с примерами. Рассматриваются все системы измерения: герцы, полутона, проценты и относительные значения.
Изменение высоты звучания должно быть в пределах от 0,5 до 1,5 раза от оригинального аудио.
Внимание: Теги <prosody> подходят только для целого предложения. Применение их к отдельным словам в предложении может привести к нежелательным паузам до и после тега. Как вариант, использовать <prosody> для завершающей части предложения, тогда пауза будет не так заметна. Для акцента на определенном слове используйте звездочку в нужном месте.
Атрибут высоты звучания корректирует тональность речи. Высота звучания измеряется в полутонах, относительных, константных значениях и Герцах.
Относительное значение в полутонах (st): может быть либо увеличением (+) или уменьшением (-) текущей высоты звучания, выраженное в полутонах (st). Например:
Это относительное изменение, выраженное в процентах, при этом "+" увеличивает высоту тона, а "-" уменьшает. Пример:
Относительные величины хороши тем, что можно задавать любые, даже очень экстремальные значения. Но помните, что для разных голосов эффект может быть разным.
Относительные значения хороши тем, что вы можете установить любые, даже очень экстремальные. Но помните, что эффект может различаться для разных голосов.
Вы также можете использовать одно из этих константных значений:
Давайте рассмотрим несколько примеров.
Некоторые голоса поддерживают дополнительную функцию установки высоты звука в герцах.
Относительное значение в герцах (Гц): изменение текущего шага вверх (+) или вниз (-), выраженное в герцах (Гц). Пример:
Атрибут скорости контролирует скорость произнесения текста. Вот как вы можете изменить скорость.
Процентное значение: это относительное изменение, выраженное в процентах, где «+» увеличивает скорость, а «-» уменьшает скорость. Например:
Не все голоса поддерживают изменение относительной скорости в процентах. Некоторые голоса поддерживают только долевое значение скорости в процентах без знаков плюс или минус.
Например, 100% означает отсутствие изменений, 200 % означает, что речь стала в два раза быстрее, а 50% означает, что она стала вдвое быстрее. Диапазон этого значения составляет 20–200%.
Вот пример с показателем 50%, что означает, что скорость составляет половину 100%. Речь будет в два раза медленнее, чем обычно.
Вот пример, где скорость равна 150%. Это означает, что речь стала на 50% быстрее. 100% — это нормальная скорость, а 150% - это увеличение на 50%.
Вы также можете использовать одно из этих предопределенных значений: x-slow, slow, medium, fast, x-fast, или default.
Теперь давайте заставим его говорить быстро с помощью fast.
Константные значения хороши для ускорения речи хороши, когда вам нужен быстрый результат.
Атрибут Volume управляет громкостью речи. Volume может изменяться в децибелах, константах и процентах.
Вы можете установить значение в децибелах (дБ) со знаком плюс или минус.Пример
Метод установки громкости речи в процентах доступен не для всех голосов.
Это относительное изменение, выраженное в процентах: «+» увеличивает громкость, а «-» уменьшает громкость. Например:
<prosody volume="+50%">Это громкость +50%</prosody>
Вы можете комбинировать pitch, rate и volume в теге <prosody> для настройки синтезированной речи. Благодаря этому вы можете придать голосу больше нюансов и особенностей.
Помните, что точный эффект этих настроек может различаться в зависимости от используемого голоса.
Как правило, prosody используют, когда хотят для того же самого голоса внутри одной озвучки одно из предложений озвучить быстрее, громче или с другим тоном.
<prosody> Тег в SSML — мощный инструмент для управления просодией или мелодическими и ритмическими аспектами синтеза речи. Он может улучшить выразительность и оригинальность ваших озвучек.