26 августа 2023 , Обновлено 27 августа 2023
Тег <prosody> предназначен для контроля над такими атрибутами синтеза речи, как: pitch высота, volume громкость и rate скорость речи.
Это руководство подробно объяснит, как использовать тег <prosody>, с примерами. Рассматриваются все системы измерения: герцы, полутона, проценты и относительные значения.
Изменение высоты звучания должно быть в пределах от 0,5 до 1,5 раза от оригинального аудио.
Внимание: Теги <prosody> подходят только для целого предложения. Применение их к отдельным словам в предложении может привести к нежелательным паузам до и после тега. Как вариант, использовать <prosody> для завершающей части предложения, тогда пауза будет не так заметна. Для акцента на определенном слове используйте звездочку в нужном месте.
Атрибут высоты звучания корректирует тональность речи. Высота звучания измеряется в полутонах, относительных, константных значениях и Герцах.
Относительное значение в полутонах (st): может быть либо увеличением (+) или уменьшением (-) текущей высоты звучания, выраженное в полутонах (st). Например:
<prosody pitch="+6st">Этот текст произносится на 6 полутонов выше</prosody>
Это относительное изменение, выраженное в процентах, при этом "+" увеличивает высоту тона, а "-" уменьшает. Пример:
<prosody pitch="-20%">Этот текст произносится на 20% ниже</prosody>
Относительные величины хороши тем, что можно задавать любые, даже очень экстремальные значения. Но помните, что для разных голосов эффект может быть разным.
<prosody pitch="+30%">Например, Даниил чувствителен к высоте голоса и повышение на 30% делает голос как у веселого бурундука</prosody>
Относительные значения хороши тем, что вы можете установить любые, даже очень экстремальные. Но помните, что эффект может различаться для разных голосов.
Вы также можете использовать одно из этих константных значений:
Давайте рассмотрим несколько примеров.
<prosody pitch="x-low">Я произношу этот текст с константным значением x-low и мой голос теперь похож на Николая Кар+аченцова</prosody>
<prosody pitch="x-high">Я произношу этот текст с константным значением x-high и мой голос теперь похож на карикатурного представителя ЛГБТ</prosody>
Некоторые голоса поддерживают дополнительную функцию установки высоты звука в герцах.
Относительное значение в герцах (Гц): изменение текущего шага вверх (+) или вниз (-), выраженное в герцах (Гц). Пример:
<prosody pitch="+40Hz">Я произношу этот текст с значением + 40 герц</prosody>
Атрибут скорости контролирует скорость произнесения текста. Вот как вы можете изменить скорость.
Процентное значение: это относительное изменение, выраженное в процентах, где «+» увеличивает скорость, а «-» уменьшает скорость. Например:
<prosody rate="-30%">Этот текст я произношу на 30% медленнее своего обычного темпа</prosody>
<prosody rate="+70%">Этот текст я произношу на 70% быстрее своего обычного темпа</prosody>
Не все голоса поддерживают изменение относительной скорости в процентах. Некоторые голоса поддерживают только долевое значение скорости в процентах без знаков плюс или минус.
Например, 100% означает отсутствие изменений, 200 % означает, что речь стала в два раза быстрее, а 50% означает, что она стала вдвое быстрее. Диапазон этого значения составляет 20–200%.
Вот пример с показателем 50%, что означает, что скорость составляет половину 100%. Речь будет в два раза медленнее, чем обычно.
<prosody rate="50%">Я произношу речь на 50% медленнее своего обычного темпа</prosody>
Вот пример, где скорость равна 150%. Это означает, что речь стала на 50% быстрее. 100% — это нормальная скорость, а 150% - это увеличение на 50%.
<prosody rate="150%">Я произношу речь на 50% быстрее своего обычного темпа</prosody>
Вы также можете использовать одно из этих предопределенных значений: x-slow, slow, medium, fast, x-fast, или default.
<prosody rate="slow">Я говорю медленно с предопределенным значением slow!</prosody>
Теперь давайте заставим его говорить быстро с помощью fast.
<prosody rate="fast">Я говорю быстро с предопределенным значением fast!</prosody>
Константные значения хороши для ускорения речи хороши, когда вам нужен быстрый результат.
Атрибут Volume управляет громкостью речи. Volume может изменяться в децибелах, константах и процентах.
Вы можете установить значение в децибелах (дБ) со знаком плюс или минус.Пример
Нормальная скорость. <prosody volume="-15dB">А этот текст я говорю на 15 децибел ниже. </prosody> Заметно? <prosody volume="+10dB">А этот текст произношу на 10 децибел выше</prosody>
<prosody volume="default">Это обычная громкость.</prosody> <prosody volume="x-soft">Это громкость экс софт.</prosody> <prosody volume="soft"> Это громкость софт.</prosody> <prosody volume="loud"> Это громкость лауд.</prosody> <prosody volume="x-loud">Это громкость экс лауд.</prosody>
Метод установки громкости речи в процентах доступен не для всех голосов.
Это относительное изменение, выраженное в процентах: «+» увеличивает громкость, а «-» уменьшает громкость. Например:
<prosody volume="-50%">Это громкость -50%</prosody>
<prosody volume="+50%">Это громкость +50%</prosody>
Вы можете комбинировать pitch, rate и volume в теге <prosody> для настройки синтезированной речи. Благодаря этому вы можете придать голосу больше нюансов и особенностей.
<prosody pitch="-2st" rate="fast" volume="+3dB">Это пример с комбинированными настройками.</prosody> <prosody pitch="-4st" rate="fast">Например тут у меня высота на 4 полут+она ниже, скорость быстрая, а громкость обычная .</prosody> <prosody pitch="+5st" rate="slow" volume="-8dB">А тут у меня высота на 5 полут+она выше, скорость тихая, а громкость на 8 децибел ниже.</prosody>
Помните, что точный эффект этих настроек может различаться в зависимости от используемого голоса.
Как правило, prosody используют, когда хотят для того же самого голоса внутри одной озвучки одно из предложений озвучить быстрее, громче или с другим тоном.
<prosody> Тег в SSML — мощный инструмент для управления просодией или мелодическими и ритмическими аспектами синтеза речи. Он может улучшить выразительность и оригинальность ваших озвучек.