Инструкция для незрячих по переводу текста в речь

, Обновлено 30 октября 2023

Данная инструкция предназначена для незрячих пользователей интернета. Аудио-инструкция любезно предоставлена Анреем Шведюком, незрячим пользователем Звукограм.

Вступление

Всем привет, с вами Андрей Шведюк, город Советская Гавань, и сегодня я хочу вам показать, как работать с сайтом zvukogram.com. На этом сайте можно не только скачать обилие разных звуковых эффектов, но самое важное, этот сайт позволяет вам работать с нейросетевыми синтезаторами, которые уже на протяжении нескольких лет успешно обгоняют технологию TTS SAPPI.

Кто помнит, SAPI это была такая технология, которая работала на базе персонных систем Windows и существовало две версии SAPI 4 и SAPI 5. Прошли годы, и нейросеть стала постепенно смещать эту технологию. Я так думаю, что началось это все с голосовых помощников Алиса и Маруся. Хотя многие со мной могут не согласиться. Если я ошибаюсь, можете взять мою голову на отсечение. Итак, поехали.

Сам сайт zvukogram.com очень удобен. Его интерфейс настолько прост, что даже неопытный пользователь интернета сможет в нем разобраться. Я почему-то в этом уверен. Итак, переходим на сайт звукограм.ком. Я пользуюсь браузером Google Chrome, но кто-то из вас может пользоваться отечественным браузером, что в принципе не возбраняется. Тем более сейчас отечественные браузеры постепенно развиваются.

Итак, я набираю сайт zvukogram.com. Хочется сказать, что этот сайт очень хорошо озвучивается программой экранного доступа, например, NVDA. Но в основном есть люди, которые пользуются и джозом. Я думаю, что и с ним тоже проблем не будет. Как я уже говорил выше, на этом сайте можно скачать звуки. Но я сегодня хочу поговорить о нейросетевых синтезаторах. Как пользоваться этой системой?

Регистрация

Я вам подробно опишу. Но для начала я расскажу о том, для чего нужна регистрация на этом сайте. Сервис звукограм предоставляет пользователям использовать нейросетевые синтезаторы за некую виртуальную валюту токены. Токены позволяют генерировать речь так, чтобы она была похожа на более очеловеченную. Таким образом голосовые помощники, о которых я говорил выше тоже работают за счет вот такой вот системы токенов

То есть мы можем заставить наших голосовых помощников повторить ту или иную фразу. Они генерируются, но имеются, конечно же, определенные ограничения. Соответственно, эти нейросетевые синтезаторы тоже работают за счет именно токенов. То есть бесплатно они работать, конечно же, не могут.

Но вы можете бесплатно прослушать демо версию текста этих синтезаторов во время выбора. Об этом я тоже расскажу чуть ниже. Гости, то есть те, кто зашел без регистрации на сайт, имеют право пользоваться синтезаторами только за пять токенов. 

Соответственно, вы можете каким-то чудом удалить кэш и опять использовать эти пять токенов. Но сами понимаете, пять токенов это не так много для использования синтезаторов, тем более, что вы, допустим, пишете какой-нибудь большой текст, который в принципе эти 5 токенов и стоят.

Поэтому вам нужно зарегистрироваться на сайте. Регистрация здесь очень легкая. Итак, что мы делаем? Заходим мы на сайт и ищем ссылочку в вход. Как только мы нажали на нее, мы попадаем вот в такую форму. Нажимаем букву H английскую, чтобы попасть в заголовок. И стрелками вниз смотрим, что же там есть. Вот вход на сайт он сказал. 

Значит дальше у нас идет редактор в котором написано admin.example.com ну то есть пример вашего email адреса. email адрес это соответственно ваш логин дальше стрелкой мы нажимаем пароль это как раз данные для входа дальше идет кнопка войти дальше забыли пароль и дальше появляется еще один заголовок если мы нажмем на стрелку вниз в котором мы видим вот такую строку регистрация на сайте вот это нам как раз и нужно.

AdminExample.com опять мы видим строчку. Мы пишем свой email туда. Сложный пароль написано. Кстати, я всегда делаю такие сложные пароли, поэтому я вам тоже рекомендую. Дальше нажимаем стрелку вниз и опять сложный пароль повторить. Кстати, напомню, чтобы попасть в редактор форм нам надо нажать клавишу пробел. Если вы пользуетесь nvda, если вы пользуетесь джозом, то эта форма появляется сразу же.

При отзвуке вот таком, такой будет отзвук и вы можете сразу писать. Дальше идет флажок отмечено. С правилами ознакомлен и согласен. И соответственно кнопка зарегистрироваться. Дальше, как обычно, вам придут письма с подтверждением ссылок. Тут уже, я думаю, вы разберетесь. А теперь давайте же войдем в этот сайт под логинами и паролем. Я вхожу сейчас под своими данными.

Нажимаю вход и ввожу свои данные. Нажимаю кнопку войти.

Оплата

Что нам теперь нужно сделать для начала? Нам нужно пополнить баланс токенов. Делаем это вот каким способом. Как только мы вошли на сайт, мы нажимаем CTRL HOME, чтобы попасть в начало страницы. И табом или стрелкой вниз, как вам удобнее, мне удобно стрелка вниз. Доходим до ссылки профиль. Нажимаем на ним ENTER. Потом нажимаем за букву H до пункта заголовка. Баланс. Нажимаем стрелку.

В данном случае у вас может быть либо 5 токенов, либо 0 токенов. Я точно сейчас уже не помню сколько токенов дается при регистрации, так как мой баланс уже изрядно пополнен. Дальше опять нажимаем букву H. Он говорит ваш токен для API. Но нам это сейчас не надо. Потом нажимаем опять букву H. Бонусы за друзей. Тоже нам это не надо пока.

Нажимаем букву H опять в заголовок и попадаем на пункт пополнения баланса. Здесь появляется у нас список тарифов, которые могут быть выгодны для каждого из нас. Например, вот, пожалуйста, 100 токенов за 100 рублей. Нажимаем, допустим, на нее, да, или 262 токенов за 250 рублей, 550 токенов за 500 рублей, 1150 токенов за 1000 рублей и так далее. То есть здесь, как видите, очень дешевые цены. И вам этого хватит на целых полгода и еще останется. Поверьте мне. Ну, допустим, нажимаем 1150. Нажимаем.

Появляется ссылочка соответственно нажимаем enter появляется значит у нас такая страница покупка токенов нам нужно нажать опять букву h и видим такой заголовок пополнение баланса для rf то есть для российской федерации и нажимаем стрелочку вниз и смотрим мы можем даже табом если нажать ну я нажимаю стрелку вниз и ищем кнопочку купить токены для жителей РФ. Дальше идет внизу, если вы дальше вниз пойдете, оплата для нерезидентов РФ, ну то есть для жителей других стран.

И здесь внизу написано оплата возможна только через мастер-карт, виза временно недоступна по понятным причинам, о которых вы все прекрасно знаете. Ну давайте нажмем купить токены для жителей RF. Нажимаем и попадаем на сайт платежной системы Юкасса. Это очень популярная платежная система с помощью которой вы можете оплачивать покупки любым способом, либо через Ю-мани, либо через банковскую карту.

И вот сейчас я нажимаю стрелку вниз или tap. Здесь заголовков нет, поэтому нам приходится пользоваться кнопочками tap или стрелками. Ищем ссылочку заплатить банковской картой. Нажимаем в нее.

На первый же редактор сразу попадаем. Если мы не попадаем на редактор, то мы нажимаем CTRL-HOME и нажимаем букву U, чтобы попасть на первый редактор. Здесь мы видим 4 редактора. Первый редактор – это номер карты. Второй редактор – месяц. Месяц, например, 06. Третий редактор – год, например, 26.

Следующий редактор – это CVC код, состоящий из трех цифр, который находится на обратной стороне карты. Вы этот код никому не показываете, никому не говорите. Вы должны знать его сами. Вы, допустим, набрали и, соответственно, нажимаем кнопку «Заплатить». 

Нажимаем и, соответственно, в банковском приложении в Push уведомлении появляется пароль, который вам надо будет ввести в редакторе. Если пароль правильный, нажимайте на Enter сразу или на кнопку оплата, и оплата будет произведена. Итак, мы оплатили, мы сделали оплату. 

Как пользоваться

Теперь давайте научимся уже пользоваться этимисинтезаторами. Заодно я вам покажу несколько примеров. Интерфейс, кстати, у этого сайта неоднократно менялся, но при этом хуже он не стал.

Поэтому я буду рассказывать вам то, что сейчас вот по интерфейсу я работаю. Итак, заходим мы на сайт и ищем ссылочку озвучка текста. Нажимаем на нее Enter.

Теперь нам нужно попасть в пункт списка синтезаторов. Что мы делаем? Мы нажимаем на букву И русскую. Это переход по кнопкам.

Один раз мы нажимаем, попадаем на пункт “русский” кнопка. То есть это язык синтезатора. Если вы сейчас нажмете на эту кнопку, то нажав стрелку вниз, вы попадете на список языков синтезаторов. Очень много языков поддерживает нейросеть. Это очень даже, кстати, удобно, если вы хотите какой-нибудь текст прочитать высококачественным голосом. 

Нам сейчас нужен русский. Нажимаем опять и попадаем на синтезатор на имя синтезатора. В данном случае у меня он сказал OMAJA NEW. Этим синтезатором я очень часто пользуюсь. Попадаем на имя синтезатора. У вас это может быть Алена или Филипп. Неважно. Мы нажимаем кнопку Enter и стрелку вниз.

Если вы нажмете, то ваш скрин-ридер прочитает список из 49 элементов. То есть в данном случае в базе звукограм имеется 49 синтезаторов. До недавнего времени здесь было 52 синтезатора, но два из них, к сожалению, в общем доступе не работают. Ну, всё, конечно, вы можете узнать у официального представителя звукограмм, если вам это интересно.

Итак, стрелкой вниз мы можем выбирать синтезатор. Вот, например, пожалуйста, вот он.

Сказал список из 49 элементов, имя синтезатора и вот такая как бы по щелчку кнопочка, которая NVDA озвучивает. Это кнопочка, которая позволяет прослушать демо голос синтезатора. Если мы нажмем, он будет говорить. 

Дальше нажимаем стрелку вниз, он будет говорить еще одно имя. Допустим, Борис. Ну давайте, например, я выберу скажем, Борислава. Вот я выбираю его. Этот список пропадает. Стрелкой вниз мы нажимаем дальше. 

Идет комбинированный список высота. В некоторых синтезаторах, например, омажа, то же самое, вместо высоты имеется такой пункт настроения, в котором можно выбрать нейтральный, дружеский или раздраженный. Комбинированный список напомню, нам нужно попасть в клавиши пробел и ходить по списку. 

А теперь нажимаем дальше стрелку вниз и попадаем на скорость. Допустим, здесь у меня написано 2.0. Я так экспериментирую иногда. Нажимаем пробел и стрелкой вниз мы начинаем искать нужную скорость. В данном случае здесь идет вот такой порядок. 0.1 это самая медленная скорость. 

Потом дальше 1,2,1,3. Это уже ускорение. Нажимаем на пункт скорость. Просто он называется скорость. Теперь. Дальше мы видим ссылочки. Сбросить настройки. Это сброс тех настроек, о которых мы немножко поговорим ниже. Дальше идет кнопка пауза. Это кнопка, которая позволяет между некоторыми предложениями делать дефис дальше очистка это очистка честно говоря мне ни о чем не говорят усилить это усиление некоторых свойств ниже диалог. 

Это для создания диалоговых текстов. Но честно говоря, я этим не пользуюсь по той простой причине, что например, если нам нужно сделать какой-нибудь диалог синтезаторов, то лучше все-таки записывать каждый файл в отдельности, отдельно синтезатором. Это и для звукорежиссеров больше удобно, чтобы обрабатывать каждую дорожку отдельно. Но я говорю это на своем опыте.

Обрезка – это когда несколько строк можно скачивать отдельно. То есть обрезает. И дальше уже у нас есть текст. То есть редактор появляется, в который мы можем прописать какой-нибудь текст. Мы нажимаем сейчас пробел. И я допустим пишу “Всем привет!”

Вот, я написал текст и нажимаю дальше стрелку вниз.

Здесь пункт использовать словарь. Словарь это когда мы например добавляем какие-то слова, которые мы хотим слышать в том ударении, в котором мы желаем. Дальше идет пункт количество символов. 

Сколько символов мы написали. И кнопка озвучить текст. Когда мы ее нажимаем, то текст начинает генерироваться, начинают списываться токены и если озвучка пройдет успешно, то тогда у нас сразу же появляется результат, который же автоматически и озвучивается. Итак, вот он у меня озвучил все успешно, все проговорил. И у нас дальше, если мы стрелкой вниз пойдем после этой кнопки, будет комбинированный список пункт mp3. Ну, нам mp3 собственно и нужно. Дальше идет баланс. Какой у нас баланс?

Дальше кнопка получить токены. Дальше список символов. Сколько символов у нас озвучено. И дальше пункт история. Он нам не нужен. Дальше пункт сохраненные. Это сохраненные озвучки. 

И дальше мы видим вот такую картину. Название файла, Борислав и цифры. Дальше идут две неозвученные кнопки, которые обозначены пунктом по щелчку. Это кнопка удаления.

Сохраненные озвучки и кнопка воспроизведения. Дальше ссылка скачать. И вот мы скачиваем это дело.

Файл сохраняется под именем PRJ и дальше подчеркивание и цифры. Мы можем назвать, например, просто «Борислав демо». Я это сохраняю. И вот что из этого получилось. «Всем привет. Меня зовут Борислав. Я работаю в корпорации звукограм». 

Пример:

 
 
00:06

Как слышите, очень качественное звучание, да еще и без всяких там коверканий ударений. Как это все делается? Как я это все достиг? А очень просто. Как я уже говорил, есть несколько настроек, которые мы можем использовать во время создания текста. Вот допустим нажимаем пункт ssml. 

Как я уже говорил, есть кнопочки, которые обозначают определенные настройки. Кнопки обрезать. Мы видим вот такие кнопочки break, это пауза, say us, sub и так далее. Некоторые пункты могут различаться в зависимости от того какой синтезатор вы выберете. И это кстати можно спокойно изучить при помощи внутренней инструкции, которая кстати находится

Опять же, когда вы нажимаете пункт озвучки, то буквой H, если вы будете ходить по заголовкам, то попадете на пункт часто задаваемые вопросы. С стрелкой вниз вы можете читать полную инструкцию, как использовать данные синтезаторы. Но некоторые моменты я все же вам расскажу. Это очень более важные моменты. Например, как делать ударение в синтезаторах.

Не все синтезаторы, к сожалению, это поддерживают, но большинство описанных здесь выше синтезаторов. Например, вот тот же Борислав. Например, если мы хотим написать вот такое предложение. “Трусы в замке заперлись на замок, оставив свои трусы, сушится на балконе.” Ударение здесь делается знаком плюс, а не двойным апострофом, как многие привыкли это делать. Соответственно, мы пишем тр+сы в з+амке. Дальше, если вы хотите, чтобы синтезатор прочитал заперлись, то пишем заперл+ись. Если вы хотите, чтобы он сказал заперлись, то соответственно з+аперлись. Ну и соответственно в слове трусы мы перед и ставим плюс. И вот, пожалуйста, результат. “Трусы в замке заперлись на замок, оставив свои трусы сушиться на балконе”.

Пример:

 
 
00:05

Лайфхак

И я еще вам покажу один фокус. Благодаря знаку плюс мы можем растянуть, например, какую-нибудь букву. Например, мы хотим написать «Долго же ты ходишь!» Можно это сделать, конечно, с помощью фонем, но, во-первых, это очень сложная штука, и без соответствующей инструкции ее не изучишь. И, во-вторых, не все синтезаторы имеют такую возможность.

Я совсем недавно открыл для себя именно этот пункт. Поэтому я вам сейчас ее покажу. Итак, в слове «долго» пишем, допустим, 5 букв «о», и перед каждой буквой пишем «плюс».

Пример:

 
 
00:02

И соответственно перед словом ходишь тоже самое делаем. Вот что получилось. “Д+о+о+о+о+олго же ты ходишь”. 

Пример:

 
 
00:03

Для создания файлов с объявлениями и уведомлениями, кстати, подойдет очень здорово, например, синтезатор Светлана. Очень такой качественный голос для вот таких прекрасных объявлений. Кажется, что вы находитесь в настоящем таком привокзальном холле. Вот представьте, я сейчас напишу вот такое объявление.

“Уважаемые пассажиры! Скорый поезд №48 Москва-Владивосток задерживается на неопределенное время. Просим соблюдать спокойствие”.

Пример:

 
 
00:10

Вот как будет звучать этот голос с использованием реверберации, эквалайзера и звукововедомлений.

Резюме

Итак, давайте подведем итоги. Что дает нам этот сайт и что дают нам нейросетевые синтезаторы? Хорошее качество. Например, если у вас нет дикторов или если вы внезапно заболеете, а вам надо срочно сделать блок, нейросетевые синтезаторы вам придут на помощь.

Однако не забывайте соблюдать правила, которые написаны в пункте политика конфиденциальности и обработки персональных данных. А именно пункт 4 часть 2. пользователь не вправе направляет запросы, которые содержат информацию, запрещенную к распространению действующим законодательством.

Например, дискредитация вооруженных сил Российской Федерации, распространение фейков вооруженных сил Российской Федерации, распространение парнографии, продажи наркотических средств, реклама казино, разжигание межнациональной розни и так далее, а также осуществление с сервисом действия прямо не предусмотренной документации условиями использования и соглашения.

Подписывайтесь на телеграм-канал звукограма https://t.me/zvukogram_com и там вы найдете ответы на самые важные вопросы по данному сервису.

Поддержка

Если остались вопросы по озвучке, то задайте их в чате поддерки в телеграм @zvukogram
2024 - Звукограм