Настройки тега prosody для изменения высоты, скорости или громкости озвучки

, Обновлено 27 августа 2023

Тег <prosody> предназначен для контроля над такими атрибутами синтеза речи, как: pitch высота, volume громкость и rate скорость речи.

Это руководство подробно объяснит, как использовать тег <prosody>, с примерами. Рассматриваются все системы измерения: герцы, полутона, проценты и относительные значения.

Общие правила

Изменение высоты звучания должно быть в пределах от 0,5 до 1,5 раза от оригинального аудио.

Внимание: Теги <prosody> подходят только для целого предложения. Применение их к отдельным словам в предложении может привести к нежелательным паузам до и после тега. Как вариант, использовать <prosody> для завершающей части предложения, тогда пауза будет не так заметна. Для акцента на определенном слове используйте звездочку в нужном месте.

Pitch - атрибут высоты тона

Атрибут высоты звучания корректирует тональность речи. Высота звучания измеряется в полутонах, относительных, константных значениях и Герцах.

Полутона

Относительное значение в полутонах (st): может быть либо увеличением (+) или уменьшением (-) текущей высоты звучания, выраженное в полутонах (st). Например:

<prosody pitch="+6st">Этот текст произносится на 6 полутонов выше</prosody>

 
 
00:04

Процентное значение

Это относительное изменение, выраженное в процентах, при этом "+" увеличивает высоту тона, а "-" уменьшает. Пример:

<prosody pitch="-20%">Этот текст произносится на 20% ниже</prosody>

 
 
00:04

Относительные величины хороши тем, что можно задавать любые, даже очень экстремальные значения. Но помните, что для разных голосов эффект может быть разным.

<prosody pitch="+30%">Например, Даниил чувствителен к высоте голоса и повышение на 30% делает голос как у веселого бурундука</prosody>

 
 
00:08

Относительные значения хороши тем, что вы можете установить любые, даже очень экстремальные. Но помните, что эффект может различаться для разных голосов.

Постоянные значения

Вы также можете использовать одно из этих константных значений:

  • x-low,
  • low,
  • medium,
  • high,
  • x-high,
  • default.

Давайте рассмотрим несколько примеров.

<prosody pitch="x-low">Я произношу этот текст с константным значением x-low и мой голос теперь похож на Николая Кар+аченцова</prosody>

Пример:

 
 
00:08

<prosody pitch="x-high">Я произношу этот текст с константным значением x-high и мой голос теперь похож на карикатурного представителя ЛГБТ</prosody>

Пример:

 
 
00:09

Значения в Герцах Hz

Некоторые голоса поддерживают дополнительную функцию установки высоты звука в герцах.

Относительное значение в герцах (Гц): изменение текущего шага вверх (+) или вниз (-), выраженное в герцах (Гц). Пример:

<prosody pitch="+40Hz">Я произношу этот текст с значением + 40 герц</prosody>

 
 
00:04

Rate - скорость

Атрибут скорости контролирует скорость произнесения текста. Вот как вы можете изменить скорость.

Относительные значения

Процентное значение: это относительное изменение, выраженное в процентах, где «+» увеличивает скорость, а «-» уменьшает скорость. Например:

<prosody rate="-30%">Этот текст я произношу на 30% медленнее своего обычного темпа</prosody>

 
 
00:08

Пример ускорения речи:

<prosody rate="+70%">Этот текст я произношу на 70% быстрее своего обычного темпа</prosody>

 
 
00:03

Доля скорости в процентах

Не все голоса поддерживают изменение относительной скорости в процентах. Некоторые голоса поддерживают только долевое значение скорости в процентах без знаков плюс или минус.

Например, 100% означает отсутствие изменений, 200 % означает, что речь стала в два раза быстрее, а 50% означает, что она стала вдвое быстрее. Диапазон этого значения составляет 20–200%.

Вот пример с показателем 50%, что означает, что скорость составляет половину 100%. Речь будет в два раза медленнее, чем обычно.

<prosody rate="50%">Я произношу речь на 50% медленнее своего обычного темпа</prosody>

Пример:

 
 
00:10

Вот пример, где скорость равна 150%. Это означает, что речь стала на 50% быстрее. 100% — это нормальная скорость, а 150% - это увеличение на 50%.

<prosody rate="150%">Я произношу речь на 50% быстрее своего обычного темпа</prosody>

Пример:

 
 
00:03

Константные значения

Вы также можете использовать одно из этих предопределенных значений: x-slow, slow, medium, fast, x-fast, или default.

<prosody rate="slow">Я говорю медленно с предопределенным значением slow!</prosody>

Пример:

 
 
00:05

Теперь давайте заставим его говорить быстро с помощью fast.

<prosody rate="fast">Я говорю быстро с предопределенным значением fast!</prosody>

Пример:

 
 
00:03

Константные значения хороши для ускорения речи хороши, когда вам нужен быстрый результат.

Volume - громкость

Атрибут Volume управляет громкостью речи. Volume может изменяться в децибелах, константах и процентах.

Значения в децибелах

Вы можете установить значение в децибелах (дБ) со знаком плюс или минус.Пример

Нормальная скорость. <prosody volume="-15dB">А этот текст я говорю на 15 децибел ниже. </prosody> Заметно? <prosody volume="+10dB">А этот текст произношу на 10 децибел выше</prosody>

Пример:

 
 
00:09

Константы для громкости

  • silent
  • x-low,
  • low,
  • medium,
  • high,
  • x-high,
  • default.

Приведем пример:

<prosody volume="default">Это обычная громкость.</prosody> <prosody volume="x-soft">Это громкость экс софт.</prosody> <prosody volume="soft"> Это громкость софт.</prosody> <prosody volume="loud"> Это громкость лауд.</prosody> <prosody volume="x-loud">Это громкость экс лауд.</prosody>

 
 
00:10

Процентное значение

Метод установки громкости речи в процентах доступен не для всех голосов.

Это относительное изменение, выраженное в процентах: «+» увеличивает громкость, а «-» уменьшает громкость. Например:

<prosody volume="-50%">Это громкость -50%</prosody>
<prosody volume="+50%">Это громкость +50%</prosody>

 
 
00:06

Объединение атрибутов

Вы можете комбинировать pitch, rate и volume в теге <prosody> для настройки синтезированной речи. Благодаря этому вы можете придать голосу больше нюансов и особенностей.

<prosody pitch="-2st" rate="fast" volume="+3dB">Это пример с комбинированными настройками.</prosody> <prosody pitch="-4st" rate="fast">Например тут у меня высота на 4 полут+она ниже, скорость быстрая, а громкость обычная .</prosody> <prosody pitch="+5st" rate="slow"  volume="-8dB">А тут у меня высота на 5 полут+она выше, скорость тихая, а громкость на 8 децибел ниже.</prosody>

Исходник примера:

 
 
00:16

Помните, что точный эффект этих настроек может различаться в зависимости от используемого голоса.

Итоги

Как правило, prosody используют, когда хотят для того же самого голоса внутри одной озвучки одно из предложений озвучить быстрее, громче или с другим тоном.

<prosody> Тег в SSML — мощный инструмент для управления просодией или мелодическими и ритмическими аспектами синтеза речи. Он может улучшить выразительность и оригинальность ваших озвучек.

  1. <prosody> Тег может работать по-разному для разных голосов из-за того, что Звукограм использует несколько механизмов нейронных сетей.
  2. Для некоторых голосов значения в полутонах или процентах могут оказаться неэффективными. Если для выбранного вами голоса не работает одно - попробуйте другое.
  3. Помните, что <prosody> тег лучше всего использовать для всего предложения или его окончания. Если вы попытаетесь использовать его в середине предложения, оно не будет работать должным образом. У вас появится паузу. Эксперты могут вырезать эту паузу в программах аудимонтажа.

Поддержка

Если остались вопросы по озвучке, то задайте их в чате поддерки в телеграм @zvukogram
2024 - Звукограм