Рубрики
Без рубрики

Транскрибировать аудио по тексту

Эта статья является частью серии учебных пособий по Txtai, платформе семантического поиска с AI. Этот… Tagged с ShowDev, MachineLearning, NLP, Python.

Эта статья является частью учебной серии о txtai , Семантический поисковый платформ с AI с AI.

Эта статья охватывает транскрипцию аудиофайлов для текста, используя модели, предоставленные обнимающими лицом.

Установить txtai и все зависимости. Поскольку эта статья использует дополнительные трубопроводы, нам необходимо установить пакет Pipeline Extras.

pip install txtai[pipeline]

# Get test data
wget -N https://github.com/neuml/txtai/releases/download/v2.0.0/tests.tar.gz
tar -xvzf tests.tar.gz

Экземпляр транскрипции является основной точкой входа для транскрибирования аудио в текст. Трубопровод Abstracts транскрибирует звук в один линейный вызов!

Pipeline выполняет логику для чтения аудиофайлов в память, запустить данные через модель машинного обучения и выводить результаты в текст.

from txtai.pipeline import Transcription

# Create transcription model
transcribe = Transcription("facebook/wav2vec2-large-960h")

В приведенном ниже примере показано, как транскрибировать список аудиофайлов в текст. Давайте расшифруем аудио по тексту и посмотрим на каждый результат.

from IPython.display import Audio, display

files = ["Beijing_mobilises.wav", "Canadas_last_fully.wav", "Maine_man_wins_1_mil.wav", "Make_huge_profits.wav", "The_National_Park.wav", "US_tops_5_million.wav"]
files = ["txtai/%s" % x for x in files]

for x, text in enumerate(transcribe(files)):
  display(Audio(files[x]))
  print(text)
  print()
Baging mobilizes invasion craft along coast as tiwan tensions escalates
Canada's last fully intact ice shelf has suddenly collapsed forming a manhatten sized ice berg
Main man wins from lottery ticket
Make huge profits without working make up to one hundred thousand dollars a day
National park service warns against sacrificing slower friends in a bare attack
U s virus cases top a million

В целом результаты твердые. Каждый результат звучит фонетически как аудио. Существует открытая задача с моделями обнимающихся лиц, чтобы использовать языковую модель для декодирования выходов модели и дальнейшего повышения точности результата.

Следите за этими обновленными моделями!

Оригинал: “https://dev.to/neuml/transcribe-audio-to-text-3eb6”