Начало работы с NLP (2 часть серии)
Первый пост в серии охватил вступительные аспекты NLP, методик для предварительной обработки текста. Эта часть охватывает лингвистические аспекты, такие как синтаксис, семантика, POS-метка, именованное распознавание объекта (NER) и N-грамм для моделирования языка.
Outline - Understanding Syntax & Semantics - Techniques to understand text -- POS tagging -- Understanding Entity Parsing -- Named Entity Recognition(NER) -- Understanding N-grams
Как мы знаем, одним из ключевых проблем в НЛП является присущая сложность в обработке естественного языка; Понимание грамматики и контекста (синтаксиса и семантики), разрешая двусмысленность (неоднозначность), разрешение со ссылкой и т. Д.
Понимание синтаксиса и семантики
Синтаксический и семантический анализ являются фундаментальными методами для понимания любого естественного языка.
Синтаксис относится к множеству правил, специфичных к грамматической структуре языка, а семантика относится к указанному значению.
Следовательно, семантический анализ относится к процессу понимания значения и интерпретации слов и структуры предложений.
Приговор, который синтаксически правильный, не всегда должен быть семантически правильным!
Давайте рассмотрим забавный пример, где человек отвечает на “Позвони мне такси!” с “Хорошо, ты кабина!” явно неправильно истолковывает контекст, который не имеет смысла. В этом примере показано, как синтаксическое правильное предложение («ОК, вы кабины!» – это грамматически идеально! 🙂) не имеет смысла иметь смысл.
Техника для понимания текста
Погиб
Погиб, также называется Грамматическая метка или Слово категория Обратная ссылка , относится к процессу разметки слова в корпусе в соответствии с определенной частью речи, основанной на его определении, так и на контексте. Теги POS из проекта PENN Treebank, которые широко используются на практике, можно найти в этой ссылке.
Почему POS-теги важны?
POS-метка важна для неоднозначной выборки слова. POS-метка имеет значение в таких приложениях, таких как машина для перевода и информации.
Проблемы в погибке POS: из-за неотъемлемой неопределенности на языке, POS-теги не являются общими. ” То же слово может принимать разные теги в разных предложениях в зависимости от различных контекстов ».
Examples: She saw a bear (bear-Noun); Your efforts will bear fruits (bear-Verb) Where is the trash can? (can-Noun) ; I can do better! (can-Modal verb)
Существует несколько подходов к тегу POS, такие как подходы на основе правил, вероятностные (стохастические) POS-тегирование с использованием скрытых моделей Markov.
Неглубокое распределение/кусочки
Неглубокий разбор или хвалитель – это процесс разделения текста в синтаксически связанные группы. Он включает в себя разделение текста в не перекрывающееся смежное подмножество токенов. Неглубокие разборные сегменты и этикетки Multi-Token Sequence. Это важно в извлечении информации из текста для создания значимых подкомпонентов.
Именованное распознавание сущности (NER)
Целью именованного распознавания сущности (NER) является процессом автоматического поиска имен людей, мест и организаций в тексте на многих языках. NER используется в добыче информации для идентификации и выписки по именованным объектам в предопределенных классах. Именные сущности в тексте являются те объекты, которые часто являются более информативными и контекстно-контекстами.
Ключевые шаги включают в себя
- Определение именованного объекта
- Извлечение именованного сущности
- Классифицировать названный объект в теги, такие как человек, организация, местоположение и т. Д.
Понимание н-грамм
N-Grams – это модель полезной язык, направленная на нахождение распределений вероятностей по слову последовательности. N-грамм по существу означает последовательность n слов. Рассмотрим простое примерное предложение «Это большая книга AI BADE,« Чья Unigrams, Bigrams и Trigrams показаны ниже.
Понимание математики
P(w|h): Probability of word w, given some history h Example: P(because| today I am happy) w: because h: today I am happy # Approach 1: Relative Frequency Count Step 1: Take a text corpus Step 2: Count the number of times 'today I am happy' appears Step 3: Count the number of times it is followed by 'because' P(because| today I am happy) = Count(today I am happy because)/ Count(today I am happy) # In essence, we seek to answer the question, Out of the N times we saw the history h, how many times did the word w follow it? # Disadvantages of the approach: When the size of the text corpus is large, then this approach has to traverse the entire corpus. Not scalable and is clearly suboptimal in performance. # Approach 2: Bigram Model Bigram model approximates the probability of a word given all the previous words by using only the conditional probability of the preceding word.
Предположение, что вероятность возникновения слова зависит только от предыдущего слова (предположение Маркова) довольно сильное; В целом, модель N-граммов предполагает зависимость от предыдущих (N-1) слов. На практике этот N – гиперпараметр, который мы можем играть вокруг, чтобы проверить, какой N оптимизирует производительность модели на конкретной задаче, скажем, анализ настроений, текстовая классификация и т. Д.
Сделав все вместе, мы охватывали различия между синтаксическим и семантическим анализом, важной точкой POS-меткой, именованного распознавания объекта (NER) и хвалить в текстовом анализе и кратко посмотрели на концепцию N-грамм для моделирования языка.
использованная литература
Ниже приведена ссылка на ноутбук Google Colab, который объясняет реализацию POS-тегов, разборки и именованного распознавания объекта (NER) на «Все новости» DataSet из Kaggle, который содержит 143 000 изделий из 15 публикаций.
- Женщины-шокод/WWCODEDATASCAUNCE
- Все новости
- Понимание слова N-грамм и вероятность N-грамма в обработке естественных языков
- ВВЕДЕНИЕ В ЧАСТЬ-РЕЧЕЗОВАНИЕ МАГАЗИН И СИГНАЯ МАКОВАКА МАРКА
Обложка Изображение: Фото Эд Робертсон на Бессмысленно
Начало работы с NLP (2 часть серии)
Оригинал: “https://dev.to/balapriya/feature-engineering-for-nlp-4e1l”