Эта статья является частью учебной серии о txtai , Семантический поисковый платформ с AI с AI.
Эта статья охватывает транскрипцию аудиофайлов для текста, используя модели, предоставленные обнимающими лицом.
Установить txtai
и все зависимости. Поскольку эта статья использует дополнительные трубопроводы, нам необходимо установить пакет Pipeline Extras.
pip install txtai[pipeline] # Get test data wget -N https://github.com/neuml/txtai/releases/download/v2.0.0/tests.tar.gz tar -xvzf tests.tar.gz
Экземпляр транскрипции является основной точкой входа для транскрибирования аудио в текст. Трубопровод Abstracts транскрибирует звук в один линейный вызов!
Pipeline выполняет логику для чтения аудиофайлов в память, запустить данные через модель машинного обучения и выводить результаты в текст.
from txtai.pipeline import Transcription # Create transcription model transcribe = Transcription("facebook/wav2vec2-large-960h")
В приведенном ниже примере показано, как транскрибировать список аудиофайлов в текст. Давайте расшифруем аудио по тексту и посмотрим на каждый результат.
from IPython.display import Audio, display files = ["Beijing_mobilises.wav", "Canadas_last_fully.wav", "Maine_man_wins_1_mil.wav", "Make_huge_profits.wav", "The_National_Park.wav", "US_tops_5_million.wav"] files = ["txtai/%s" % x for x in files] for x, text in enumerate(transcribe(files)): display(Audio(files[x])) print(text) print()
Baging mobilizes invasion craft along coast as tiwan tensions escalates Canada's last fully intact ice shelf has suddenly collapsed forming a manhatten sized ice berg Main man wins from lottery ticket Make huge profits without working make up to one hundred thousand dollars a day National park service warns against sacrificing slower friends in a bare attack U s virus cases top a million
В целом результаты твердые. Каждый результат звучит фонетически как аудио. Существует открытая задача с моделями обнимающихся лиц, чтобы использовать языковую модель для декодирования выходов модели и дальнейшего повышения точности результата.
Следите за этими обновленными моделями!
Оригинал: “https://dev.to/neuml/transcribe-audio-to-text-3eb6”