Вы, вероятно, использовали любой текст в речевой инструмент хотя бы один раз. Таким образом, в этом посте мы создадим свой собственный инструмент для текстового речевого инструмента с функцией экспортировки звука с помощью Python.
По сути, мы будем использовать текст IBM Watson Text в модель обучения речевой машины. IBM Уотсон, помогая предприятиям AI на работу и помогает организациям прогнозировать будущие результаты, автоматизировать сложные процессы и оптимизировать время сотрудников.
Зарегистрируйтесь с IBM Cloud
Чтобы начать работу с текстом к речевой модели, вы должны зарегистрироваться с IBM Cloud. Перейти к IBM Облако и создать новый бесплатный аккаунт.
После этого вам необходимо создать экземпляры модели Lite плана. Чтобы создать это, перейдите к Текст к речевой модели Страница, а затем создайте бесплатный экземпляр, нажав кнопку Создание.
После этого вы увидите страницу «Начало работы». Перейти к Управлять Страница для получения учетных данных модели, которые являются ключом API и URL. Теперь процесс регистрации завершен.
использование
Во-первых, нужно установить IBM_WATSON на твоем компьютере.
pip install ibm_watson
Если вы используете Jupyter ноутбук Добавьте восклицательный знак перед командой, чтобы действовать как если бы она выполнена в терминале.
!pip install ibm_watson
Аутентифицировать
Импорт TexttOspechech Модель, Уотсон Аутентификатор и аутентифицироваться с ключом API и URL.
from ibm_watson import TextToSpeechV1 from ibm_cloud_sdk_core.authenticators import IAMAuthenticator
Укажите ключ API и URL
url = '' apiKey = ' '
authenticator = IAMAuthenticator(apiKey) tts = TextToSpeechV1(authenticator=authenticator) tts.set_service_url(url)
Настройка текста к речи
На этом этапе мы посмотрим, как говорить текст из строки и текстовых файлов.
От струны
with open('./speech.mp3', 'wb') as audio_file: res = tts.synthesize('Hello World! I\'m Thirasha', accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result() audio_file.write(res.content)
Через некоторое время он будет генерировать эту строку в аудиофайл и экспортировать его как Relect.mp3
в корневом каталоге.
Из текстового файла
with open('SpeechText.txt', 'r') as f: text = f.readlines()
Удалить перерывы линии
text = [line.replace('\n', '') for line in text] text = ''.join(str(line) for line in text)
Экспорт аудиофайла
with open('./speech.mp3', 'wb') as audio_file: res = tts.synthesize(text, accept='audio/mp3', voice='en-US_AllisonV3Voice').get_result() audio_file.write(res.content)
Изменить язык и голос (необязательно)
Если вы хотите изменить голос или язык, обратитесь к этому IBM Языки и голоса документация.
Например, если я выбрал немецкий женский голос de-de_birgitv3voice
Этот код должен быть изменен таким.
with open('./germanspeech.mp3', 'wb') as audio_file: res = tts.synthesize('Hallo Welt! Ich bin Thirasha', accept='audio/mp3', voice='de-DE_BirgitV3Voice').get_result() audio_file.write(res.content)
В конце концов, вы создали свой собственный инструмент для создания речи к тексту! 🎉
Оригинал: “https://dev.to/thirashapraween/create-a-synthesizes-natural-sounding-speech-from-text-tool-5230”