Распознавание речи означает, что программа будет захватывать слова, произведенные человеком и преобразуют их в письменные слова. Это может быть удобно для генерации субтитров, транскрипта обсуждения встречи и многие другие случаи использования.
Преобразование речи в текст – это довольно сложная проблема обучения машины, где алгоритм должен получить каждый звук, созданный человеком и определить соответствующие письменные письма. Кроме того, в зависимости от используемого языка различные звуки могут соответствовать другим символам. В результате распознавание речи слишком сложно, чтобы решить использование традиционного подхода к программированию.
К счастью, крупные компании, такие как Google, Amazon, IBM и другие уже решили эту проблему. Они собрали множество аудио, подавали эти данные алгоритмам с помощью методов обучения машин и произвели обученные алгоритмы для преобразования речи в текст с действительно высокой точностью. Кроме того, эти алгоритмы доступны через API, чтобы легко интегрировать их в ваши программы.
Эта статья покажет вам, как использовать Python, а API Google может транскрибировать аудио с несколькими строками кода. Давайте начнем!
Распознавание речи Python с использованием Google API
Google предлагает сервис речи к тексту через API, что означает, что вы можете отправить запрос с аудиофайлом, и вы получите транскрипцию аудиофайла. Эта услуга делает простой, включая функциональность распознавания речи Python в ваших программах. Посмотрите, как настроить учетную запись Google и настроить его для доступа к API Google Polect To-Text
Напишите программу Python
После того, как вы сделали всю конфигурацию, необходимую для использования API Google Relect-To Text, вы можете перейти к последнему шагу, напишите программу Python.
Наша программа понадобится сторонняя библиотека Google-Cloud-речь, которая отправит запросы в Google. Вы можете установить эту библиотеку, выполняющую следующую команду из своего терминала:
>> pip install --upgrade google-cloud-speech
Наконец, вы можете скопировать код ниже и сохранить его как скрипт Python. Обратите внимание, что аудиофайл должен быть в той же папке, что и скрипт. Кроме того, вам нужно будет заменить имя файла test.wav с именем файла.
from google.cloud import speech import os import io # Creates google client client = speech.SpeechClient() # Full path of the audio file, Replace with your file name file_name = os.path.join(os.path.dirname(__file__),"test.wav") #Loads the audio file into memory with io.open(file_name, "rb") as audio_file: content = audio_file.read() audio = speech.RecognitionAudio(content=content) config = speech.RecognitionConfig( encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16, audio_channel_count=2, language_code="en-US", ) # Sends the request to google to transcribe the audio response = client.recognize(request={"config": config, "audio": audio}) # Reads the response for result in response.results: print("Transcript: {}".format(result.alternatives[0].transcript))
Если ваш файл имеет другое расширение, вы можете преобразовать его с помощью онлайн-конвертера файлов. Перейдите в M4A в Wav Converter.
Если ваша программа работает правильно, это выход, вы увидите после выполнения сценария:
>> python speech_to_text.py # Replace with your program file name
Вывод:
Transcript: hey there in this area you will learn how you can set your django version there are a few ways Transcript: there are a few ways to check your django version and in this video I will show you a few of them I will also show you how you can upgrade and downgrade your django version
Любые ошибки? Смотрите некоторые возможные ошибки и как их исправить.
Надеюсь, вам наслаждаться своим учебником и так много спасибо за чтение! Счастливое кодирование!
Оригинал: “https://dev.to/hellocodeclub/creating-a-speech-recognition-program-with-python-google-api-4kcd”