Создание программы распознавания речи с Python и Google API

Распознавание речи означает, что программа будет захватывать слова, произведенные человеком и преобразуют их в письменные слова. Это может быть удобно для генерации субтитров, транскрипта обсуждения встречи и многие другие случаи использования.

Преобразование речи в текст – это довольно сложная проблема обучения машины, где алгоритм должен получить каждый звук, созданный человеком и определить соответствующие письменные письма. Кроме того, в зависимости от используемого языка различные звуки могут соответствовать другим символам. В результате распознавание речи слишком сложно, чтобы решить использование традиционного подхода к программированию.

К счастью, крупные компании, такие как Google, Amazon, IBM и другие уже решили эту проблему. Они собрали множество аудио, подавали эти данные алгоритмам с помощью методов обучения машин и произвели обученные алгоритмы для преобразования речи в текст с действительно высокой точностью. Кроме того, эти алгоритмы доступны через API, чтобы легко интегрировать их в ваши программы.

Эта статья покажет вам, как использовать Python, а API Google может транскрибировать аудио с несколькими строками кода. Давайте начнем!

Распознавание речи Python с использованием Google API

Google предлагает сервис речи к тексту через API, что означает, что вы можете отправить запрос с аудиофайлом, и вы получите транскрипцию аудиофайла. Эта услуга делает простой, включая функциональность распознавания речи Python в ваших программах. Посмотрите, как настроить учетную запись Google и настроить его для доступа к API Google Polect To-Text

Напишите программу Python

После того, как вы сделали всю конфигурацию, необходимую для использования API Google Relect-To Text, вы можете перейти к последнему шагу, напишите программу Python.

Наша программа понадобится сторонняя библиотека Google-Cloud-речь, которая отправит запросы в Google. Вы можете установить эту библиотеку, выполняющую следующую команду из своего терминала:

>> pip install --upgrade google-cloud-speech

Наконец, вы можете скопировать код ниже и сохранить его как скрипт Python. Обратите внимание, что аудиофайл должен быть в той же папке, что и скрипт. Кроме того, вам нужно будет заменить имя файла test.wav с именем файла.

from google.cloud import speech
import os
import io

# Creates google client
client = speech.SpeechClient()

# Full path of the audio file, Replace with your file name
file_name = os.path.join(os.path.dirname(__file__),"test.wav")

#Loads the audio file into memory
with io.open(file_name, "rb") as audio_file:
    content = audio_file.read()
    audio = speech.RecognitionAudio(content=content)

config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    audio_channel_count=2,
    language_code="en-US",
)

# Sends the request to google to transcribe the audio
response = client.recognize(request={"config": config, "audio": audio})

# Reads the response
for result in response.results:
    print("Transcript: {}".format(result.alternatives[0].transcript))

Если ваш файл имеет другое расширение, вы можете преобразовать его с помощью онлайн-конвертера файлов. Перейдите в M4A в Wav Converter.

Если ваша программа работает правильно, это выход, вы увидите после выполнения сценария:

>> python speech_to_text.py # Replace with your program file name

Вывод:

Transcript: hey there in this area you will learn how you can set your django version there are a few ways
Transcript:  there are a few ways to check your django version and in this video I will show you a few of them I will also show you how you can upgrade and downgrade your django version

Любые ошибки? Смотрите некоторые возможные ошибки и как их исправить.

Надеюсь, вам наслаждаться своим учебником и так много спасибо за чтение! Счастливое кодирование!

Оригинал: “https://dev.to/hellocodeclub/creating-a-speech-recognition-program-with-python-google-api-4kcd”

Распознавание речи Python с использованием Google API

Напишите программу Python

Читайте ещё по теме: