Создать синтезию естественной звуковой речи из текстового инструмента

Вы, вероятно, использовали любой текст в речевой инструмент хотя бы один раз. Таким образом, в этом посте мы создадим свой собственный инструмент для текстового речевого инструмента с функцией экспортировки звука с помощью Python.

По сути, мы будем использовать текст IBM Watson Text в модель обучения речевой машины. IBM Уотсон, помогая предприятиям AI на работу и помогает организациям прогнозировать будущие результаты, автоматизировать сложные процессы и оптимизировать время сотрудников.

Зарегистрируйтесь с IBM Cloud

Чтобы начать работу с текстом к речевой модели, вы должны зарегистрироваться с IBM Cloud. Перейти к IBM Облако и создать новый бесплатный аккаунт.

После этого вам необходимо создать экземпляры модели Lite плана. Чтобы создать это, перейдите к Текст к речевой модели Страница, а затем создайте бесплатный экземпляр, нажав кнопку Создание.

После этого вы увидите страницу «Начало работы». Перейти к Управлять Страница для получения учетных данных модели, которые являются ключом API и URL. Теперь процесс регистрации завершен.

использование

Во-первых, нужно установить IBM_WATSON на твоем компьютере.

pip install ibm_watson

Если вы используете Jupyter ноутбук Добавьте восклицательный знак перед командой, чтобы действовать как если бы она выполнена в терминале.

!pip install ibm_watson

Аутентифицировать

Импорт TexttOspechech Модель, Уотсон Аутентификатор и аутентифицироваться с ключом API и URL.

from ibm_watson import TextToSpeechV1
from ibm_cloud_sdk_core.authenticators import IAMAuthenticator

Укажите ключ API и URL

url = ''
apiKey = ''

authenticator = IAMAuthenticator(apiKey)
tts = TextToSpeechV1(authenticator=authenticator)
tts.set_service_url(url)

Настройка текста к речи

На этом этапе мы посмотрим, как говорить текст из строки и текстовых файлов.

От струны

with open('./speech.mp3', 'wb') as audio_file:
    res = tts.synthesize('Hello World! I\'m Thirasha', accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result()
    audio_file.write(res.content)

Через некоторое время он будет генерировать эту строку в аудиофайл и экспортировать его как Relect.mp3 в корневом каталоге.

Из текстового файла

with open('SpeechText.txt', 'r') as f:
    text = f.readlines()

Удалить перерывы линии

text = [line.replace('\n', '') for line in text]
text = ''.join(str(line) for line in text)

Экспорт аудиофайла

with open('./speech.mp3', 'wb') as audio_file:
    res = tts.synthesize(text, accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result()
    audio_file.write(res.content)

Изменить язык и голос (необязательно)

Если вы хотите изменить голос или язык, обратитесь к этому IBM Языки и голоса документация.

Например, если я выбрал немецкий женский голос de-de_birgitv3voice Этот код должен быть изменен таким.

with open('./germanspeech.mp3', 'wb') as audio_file:
    res = tts.synthesize('Hallo Welt! Ich bin Thirasha', accept='audio/mp3', voice='de-DE_BirgitV3Voice').get_result()
    audio_file.write(res.content)

В конце концов, вы создали свой собственный инструмент для создания речи к тексту! 🎉

Оригинал: “https://dev.to/thirashapraween/create-a-synthesizes-natural-sounding-speech-from-text-tool-5230”