Рубрики
Без рубрики

Руководство для начинающих к анализу речи

Речевой сигнал от Pixabay Эта статья дает введение в речевой сигнал … Теги с датым, речью, аудио, Python.

Речевой сигнал от Pixabay.

Эта статья дает введение в речевые сигналы и его анализ. Кроме того, я по сравнению с анализом текста, чтобы увидеть, как это отличается от речи.

Речь по сравнению с текстом как средняя общение

Речь определяется как выражение мыслей и чувств путем сочтения звуков. Речь является наиболее естественным, интуитивным и предпочтительным средством связи с людьми. Восприятие речи существует в форме различных языков, диалектов, акцентов, в то время как словарный запас речи растет день за днем. Более сложная изменчивость на уровне речевого сигнала существует в виде различной амплитуды, продолжительности, шага, тембре и изменчивости динамики.

Текст как средство связи развивалось для хранения и передачи информации на большие расстояния. Это написанное представление о любом речевой связи. Это более простая форма связи и лишена ранее упомянутых сложных переменных, существующих в речи.

Закрепленные переменные в речи затрудняют анализировать, но предоставляет дополнительную информацию, используя изменение тона и амплитуды.

Представление речи и текста

Речь и текстовый анализ имеют широкие приложения в настоящем мире. У них разные представления, и многие различия и проблемы встречаются в их анализе.

Давайте посмотрим на речевой сигнал, взятый из одного высказывания CMU US RMS ARCTIC Речевая база данных. Каждое из высказываний записывается как 16-битный сигнал на частоте дискретизации 16 кГц, что означает, что 16000 образцов для каждой секунды сигнала, и каждый образец имеет разрешение 16 битов на образец. Частота выборки аудиосигнала определяет разрешение образцов звука, выше скорости дискретизации, выше, – это разрешение сигнала. Речевой сигнал читается из ‘arctic_a0005.wav’ Файл в речевой базе данных, которая имеет длительность около 1,4 секунды, эквивалентна последовательности 22640 образцов, каждый образец 16 битного номера. Представление ниже речи – это график речевого сигнала от ‘arctic_a0005.wav’ Чей эквивалентный текст “Будем ли мы когда-нибудь забывать” :

Речевой сигнал, S [n] для высказывания “Будут ли мы когда-нибудь забывать”

Из вышеупомянутой фигуры видно, что речь может быть представлена как изменение амплитуды со временем. Амплитуда нормализуется так, что максимальное значение является 1 Отказ Речь в основном является последовательностью сочленения звуковых блоков, таких как «W», «IH», известная как Phonemes. Речевой сигнал может быть сегментирован в последовательность фонем и тишины/не речевой сегменты.

База данных также содержит соответствующую текстовую транскрипцию для речевого сигнала как на уровне предложения, так и в PhoneMe для каждого волнового файла. Ниже приведено представление части вышеуказанного речевого сигнала, показывающего фонемы и их соответствующий промежуток времени.

Сегменты уровня Phoneme сигнала для «воли» как «W», «IH» и «L»

Из вышеприведенной фигуры видно, что фонемы «W», «IH» и «L» являются квазипериодическими по своей природе и классифицируются как озвученные фонемы, поскольку они получают периодической вибрацией вокальных складок. Кроме того, «IH» – гласный, в то время как «W» и «L» являются полу гласными. Озвученные и неуклюженные классы – это широкая категоризация речевых звуков, основанных на вибрации голосовых связков. Исследование и классификация различных фонем называются фонетиками.

Сегменты уровня Phoneme сигнала для «забыть» как «F», «Er», «G», «EH» и «T»

В вышеупомянутой рисунке у нас невидированные фонемы, такие как «F», «G» и «T» и высказанные фонемы, такие как «ER» и «EH». Phonemes ‘G’ и ‘T’ дополнительно классифицируются как останавливается, что молчание, а затем внезапное импульс. Можно соблюдать, что составляющая голоса представляет собой квази периодический, в то время как неуклюженные компоненты являются шумными, поскольку они не получают периодической вибрацией вокальных складок.

Фонемы могут быть сопоставлены с письменной формой речи, используя сопоставление Phoneme для графима. Ниже приведена сопоставление между текстом и соответствующими фонемами:

Текст: «Мы когда-нибудь забудем это»

Фонетическая последовательность: «W», «IH», «L», «W», «IY», «EH», «V», «ER», «F», «ER», «G», «EH» , «Т», «IH», «т»

Из вышеперечисленного отображения видно, что слово «воли» сопоставлено на фонемы «W», «IH», «L».

Далее мы рассмотрим частоту частоты частоты частоты речи, также широко известную как Короткое время преобразования Фурье (STST) в речевой исследовательской общине. Спектрограмма это визуальное представление частотной области представления звука.

Спектрограмма регистрации журнала речевого сигнала с использованием окна размером 30 мс и размером 2,5 мс.

Спектрограмма журнала, нанесенное выше, нанесенное выше, представляет собой амплитуду STST в шкале журнала. Выбирается размер кадра 30 мс, который эквивалентен 30 мс x 16 образцов речевого сигнала, а сдвиг кадра 7,5 мс эквивалентно 120 образцам. Причина разделения речевого сигнала в рамки небольшого длительности состоит в том, что речевой сигнал нестационарной, а его временные характеристики меняются очень быстро. Итак, принимая небольшой размер кадра, мы производим предположение, что речевой сигнал будет стационарным, и его характеристики не будут сильно различаться в рамках. Кроме того, более короткий сдвиг кадра выбирается для отслеживания непрерывности в речевом сигнале и не упущены кадрыми изменениями по краям кадров. Из вышеуказанного участка можно увидеть, что представление частотной области каждого кадра помогает нам лучше проанализировать речевой сигнал; Как мы можем легко увидеть гармоники как параллельные красные сегменты в озвученных областях и как амплитуда варьируется для каждой частоты и индекса кадра. Следовательно, большая часть анализа речевого сигнала осуществляется в частотной области. Но извлечение временной информации, такой как резкие изменения в сигнале (начало взрыва, как «T»), лучше захвачена во временной области, поскольку разделительный речевой сигнал в рамки отбрасывает мгновенные изменения в сигнале.

Можно сказать, что мы можем получить лучшее временное разрешение в частотной области, принимая меньший размер кадра. Но между разрешением во времени и частотной области есть компромисс. Принимая очень маленький размер кадра, даст более высокое разрешение вовремя, но даст мало образцов в одном кадре, а соответствующие компоненты Фурье будет иметь несколько частотных компонентов. И принимая больший размер кадра, даст более низкое разрешение времени, но более высокое разрешение частоты из-за более высокого числа образцов. Таким образом, получение высокого разрешения как во времени, так и в частоте одновременно невозможно.

Не наблюдается, что ось Y в графике журнала Spectrogram имеет частоту до 8 кГц для частоты дискретизации 16 кГц. Это связано с тем, что в соответствии с теоремой отбора проб Nyquist-Shannon максимальная частота, которая может наблюдаться в дискретной сигнале, – большая часть частоты дискретизации, которая составляет 8 кГц.

Хотя речь имеет много вариабельности в зависимости от окружающей среды, докладчика, настроения и тонуса докладчика, текст лишен всей этой изменчивости.

Эквивалентный текст представлен как последовательность алфавитов, символов и пространств, как «мы когда-нибудь забудем».

Применение речевого анализа

Обнаружение голоса активности: Выявление сегментов в аудиофонической форме, где только речь присутствует, пренебрегая неэлектрическими и тихими сегментами

Улучшение речи: Улучшение качества речевого сигнала путем фильтрации и отделения шума из сегментов речевых

Распознавание речи: Преобразование речевого сигнала в текст, все же его вызов в разных условиях признание может быть словарным запасом или независимым

Текст в речь: Синтезировать естественную речь из текста, заставляя речевой звук очень естественным с эмоциями является сложной

Диаризация докладчика и распознавание докладчика: Диаризация сегментирует речевой сигнал в сегменты, принадлежащие разным докладчикам, в то время как распознавание докладчика идентифицирует, кто говорит в определенное время

Отделение источника звука: Разделение смешанного речевого сигнала, как речь, перекрывалась с речью из другого динамика или шума

Модификация речи: Модифицируя речь, как изменение своей эмоции, тона, преобразование в речь, разговаривающую другой динамик

Эмоциональная речь Классификация: Определение эмоции речи, как счастливой, злой, грустной и беспокойства

Ключевое слово Spotting: Определение определенных ключевых слов во всей речевой высказывании

Применение текстового анализа:

Текстовая классификация: Классифицирование всего текстового документа на различные классы или последовательность слов на разные классы

Именованное распознавание сущности: Выявление людей, организаций, имена место, определенные аббревиатура и другие субъекты

Текстовая суммарная информация: Генерация резюме из документов

Кластеризация документов: Выявление подобных текстовых документов на основе аналогичного контента

Анализ настроений: Определение настроения, эмоций, настроений и мнения из текста

Проблемы в анализе речи и шума:

Все вышеперечисленные приложения речевого и шума-анализа вполне сложные для решения. Внешние факторы, которые дополнительно усложняют усложнение речи и шума, являются различные виды шума, понесенных вместе с речью и текстом. Различаются различные обработка сигналов, методы на основе нейробиологии, контролируемые и неповторимые методы обучения машины, рассмотрены для решения того же. Из-за неструктурированной природы речевых сигналов методы глубокого обучения методы показали успех для различных приложений.

Шум в речи и тексте:

Шум – это любой нежелательный сигнал, искажающий исходный сигнал. Добавление шума в речь против добавления шума в текст очень отличается.

Учитывая речевой сигнал с амплитудой s [n] , где n Является ли индекс образца, шум любой другой сигнал, w [n] который препятствует речи. Шумный речевой сигнал U [n] можно рассматривать как:

U [n] = s [n] + w [n]

В приведенном выше случае шум является добавкой в природе, что является самым простым случаем. Шум также может понести в сверточную форму, такую как реверберация, амплитуда, отсечение и другие нелинейные искажения речевого сигнала.

Шум Factory1, w [n] из базы данных SHOMEX92

Журнал масштабирован спектрограмма шума завода1, используя размер окна 30 мс и размер хоп 7,5 мс.

Вышеуказанный сюжет имеет заводский шум1 шум как во времени, так и на частоте домена, который взят из SHOMEX92 база данных. Вышеуказанные шумовые образцы пересказаны к той и той же скорости выборки речевых образцов, 16 кГц, поскольку мы добавляем речь к шуму, и оба должны иметь те же скорость дискретизации.

Шумная речь, u [n] в SNR 0DB

Специальный спектрограмма журнала в журнале Noysy речи с использованием размера окна 30 мс и размером 2,5 мс

Вышеуказанный участок имеет шумную речь как во времени, так и на частоте домена. Шум в речевом сигнале изменяет весь сигнал, и трудно проанализировать и извлекать речевые сегменты. Существуют различные алгоритмы улучшения речи, чтобы уменьшить уровень шума и улучшить разборчивость речи.

Учитывая текстовое предложение, шум может нести в форме MISSPELT и отсутствующих слов, которые могут либо изменить значение предложения или создавать бессмысленное предложение. Например:

Оригинальное текстовое предложение: «Будем ли мы когда-нибудь забывать»

Шумное текстовое предложение: «Мы никогда не забудем это»

В приведенном выше шумном тексте шума несет в виде слова « » когда-либо ‘ изменился на «Никогда», который меняет значение предложения.

Еще одна форма шумного текста: «Мы никогда не будем для этого»

В приведенном выше шумном тексте шума несет в виде слова « » Забудьте « » изменился на ‘forggt’, что делает предложение бессмысленным из-за слов Misspelt ‘forggt’ Отказ

Итак, видно, что добавление шума в речь искажает весь сигнал, пока в текстовом искажении дискретна, как отсутствуют символ/слово или неправильное представление.

Иллюстрация анализа речи

Теперь мы проиллюстрируем важную технику речевого анализа. Запись любого аудиосигнала в целом содержит много регионов молчания, и нам может быть интересно только в сегментах, где присутствует речь. Это полезно извлечь речевые сегменты от сигнала, содержащего длинные областей молчания, автоматически, как регионы тишины не передают никакой информации. Эти речевые сегменты могут быть дополнительно проанализированы для различных приложений, таких как распознавание речи, докладчика и классификация эмоций.

Следовательно, обнаружение тишины является важным этапом предварительной обработки в большинстве речевых приложений.

Учитывая речевой сигнал s [n] Области молчания могут быть обнаружены путем сравнения относительной энергии сегментов в рамках коротких долгов. Мы принимаем размер кадра 20 мс и рассчитаем краткосрочный энергетический сигнал, e [n] как сумма квадрата s [m] где м находится в пределах +/- 10 мс (в образцах) n Отказ Размер кадра выбирается в зависимости от того, сколько временных изменений энергии речевого сигнала мы хотим обнаружить. Короткий размер кадра способен обнаруживать резкое изменение энергии, но может дать множество чередующихся кадров тишинских сегментов из-за неотъемлемых частей тишины в некоторых фономах, таких как вспышки и между словами.

Краткосрочная энергия, E [n] речевого сигнала

Из приведенного выше графика видно, что краткосрочная энергия речевого сигнала резко изменяется, а относительный порог может использоваться для обнаружения областей тишины.

Обнаружение тишины в речевой сигнале

Вышеуказанный график показывает облады тишины, выделенные красным, используя пороговое значение 0,01% от средней краткосрочной энергии речевого сигнала. Порог выбирается на основе наблюдения за изменением краткосрочной энергии в речевом сигнале.

Одной из проблем обнаружения тишины в случае, если речевой сигнал является шумным, то относительная энергия в областях тишины речи также будет высока. Это может быть решено, увидев вариацию краткосрочной энергии речевого сигнала фильтрованного низкопровода в случае, если шум имеет преимущественно высокочастотные компоненты.

Демонстрация симуляций, сделанных в настоящей статье, можно найти в Github и NBViewer .

Надеюсь, вы нашли эту статью и демонстрацию демонстрации. Я постараюсь добавить больше пониманий на анализ речевого сигнала в предстоящих статьях.

Об авторе

Я ученый данных в Belong.co И закончил свою докторскую степень из Индийского института науки Бангалора, Индии.

Оригинал: “https://dev.to/vijaygirish2001/beginners-guide-to-speech-analysis-4g0b”