Речь Python в текстовое преобразование с использованием peopleRecognition

Автор оригинала: Pankaj Kumar.

В этой статье мы раскрываем процесс Преобразование речи в текст в Python с использованием библиотеки ProductReCognition Отказ

Распознавание речи это процесс распознавания голоса и представляющий его текстовым способом. В современном быстро движущемся мире распознавание речи полезно во многих аспектах, таких как автоматическое вождение автомобиля, эпиднадзор домашнего дома и т. Д.

Предпосылки для Python речи к тексту преобразования

Перед погружением в процесс речи Python в текстовое преобразование обязательно для нас установить необходимые библиотеки.

Шаг 1: Установить библиотеку повторений.

pip install speechrecognition

Библиотека прозрачности используется для Речь к тексту преобразования Отказ Более того, он поддерживает различные офлайн/онлайн речь Двигатели распознавания и API Отказ

Шаг 2: Установите модуль Pyudio

pip install pyaudio

Библиотека Pyaudio Служит трансплатформенным модулем ввода-вывода и обеспечивает привязки с Portaudio Отказ Pyaudio позволяет пользователю записывать и воспроизводить аудиофайлы независимо от платформы I.e. Это полностью независимо от платформы.

Понимание речи Python в текстовое преобразование с использованием модуля PeastReCognition

Шаг 1: Импортируйте необходимую библиотеку/модуль

В процессе преобразования речи к тексту используя Модуль PeopleReCognition Нам придется импортировать то же самое в нашей программе, чтобы воспользоваться всеми функциями, определенными под модулем/библиотекой.

import speech_recognition

Шаг 2: Инициализировать распознаватель речи

variable = speech_recognition.Recognizer()

Чтобы принять вход в формате аудио и распознать звук, нам необходимо инициализировать распознатель для распознавания звука/голоса.

Шаг 3: Установите источник ввода аудио/голос

Вход в модуль PeastReCognition имеет два типа:

Предварительно записанный аудиофайл
Голос ввода через микрофон по умолчанию

with SRG.Microphone() as source

В приведенном выше утверждении вход к нашей функции напрямую записан через Микрофон по умолчанию Отказ Таким образом, Микрофон () Объект используется для получения звука от микрофона.

Примечание: Нам нужно установить Pyudio модуль Чтобы принять ввод в формате аудио из микрофона по умолчанию.

Если вы хотите преобразовать предварительно записанный аудиофайл в текст, нам нужно следовать следующему утверждению:

with SRG.AudioFile(name of the audio file) as source

Шаг 4: Определите ограничение по времени для записи звука от микрофона.

Рекорд () Метод Используется для установки источника ввода и времени, для которого микрофон должен принимать и записывать входные аудио.

record(source, duration)

Источник : Определяет источник ввода, такого как Аудио файл , Вход от микрофона , так далее.
Продолжительность : период времени (в секундах), для которых микрофон будет активен и примет входной голос от пользователя.

Шаг 5: Преобразуйте речь в текст, используя поисковую систему или API

Запись () Функция Принимает голос от пользователя и загружать одинаковую к механизму распознавания речи, таких как механизм распознавания голоса Google для распознавания речи. Для системы обязательно оставаться на связи с Интернет Для того, чтобы использовать двигатель распознавания Google.

распознать_google () Функция Распознает входной голос, переданный ему в качестве параметра, и возвращает его в текстовую форму. Если пользователь желает использовать любой другой язык для распознавания речи, как испанский, японский и т. Д., должен будет пройти Язык в качестве параметра к функции.

Реализация речи Python в текстовое преобразование с использованием библиотеки повторений

import speech_recognition as SRG 
import time

store = SRG.Recognizer()
with SRG.Microphone() as s:
    
    print("Speak...")
    
    audio_input = store.record(s, duration=7)
    print("Recording time:",time.strftime("%I:%M:%S"))
   
    try:
        text_output = store.recognize_google(audio_input)
        print("Text converted from audio:\n")
        print(text_output)
        print("Finished!!")

        print("Execution time:",time.strftime("%I:%M:%S"))
    except:
           print("Couldn't process the audio input.")

Выход:

Speak...
Recording time: 01:13:27
Text converted from audio:

Python on Journaldev!
Finished!!
Execution time: 01:13:34

Заключение

Таким образом, в этой статье мы поняли преобразование речи в текст в Python с использованием библиотеки ProducyReCongition.

Предпосылки для Python речи к тексту преобразования

Понимание речи Python в текстовое преобразование с использованием модуля PeastReCognition

Реализация речи Python в текстовое преобразование с использованием библиотеки повторений

Заключение

Рекомендации

Читайте ещё по теме: