Рубрики
Без рубрики

Функция инженерии для NLP

Первый пост в серии охватил вводные аспекты NLP, методики для текста предварительных процессов … Теги с NLP, Python, новичками, машины.

Начало работы с NLP (2 часть серии)

Первый пост в серии охватил вступительные аспекты NLP, методик для предварительной обработки текста. Эта часть охватывает лингвистические аспекты, такие как синтаксис, семантика, POS-метка, именованное распознавание объекта (NER) и N-грамм для моделирования языка.

Outline
- Understanding Syntax & Semantics
- Techniques to understand text
  -- POS tagging
  -- Understanding Entity Parsing
  -- Named Entity Recognition(NER)
  -- Understanding N-grams

Как мы знаем, одним из ключевых проблем в НЛП является присущая сложность в обработке естественного языка; Понимание грамматики и контекста (синтаксиса и семантики), разрешая двусмысленность (неоднозначность), разрешение со ссылкой и т. Д.

Понимание синтаксиса и семантики

Синтаксический и семантический анализ являются фундаментальными методами для понимания любого естественного языка.

Синтаксис относится к множеству правил, специфичных к грамматической структуре языка, а семантика относится к указанному значению.

Следовательно, семантический анализ относится к процессу понимания значения и интерпретации слов и структуры предложений.

Приговор, который синтаксически правильный, не всегда должен быть семантически правильным!

Давайте рассмотрим забавный пример, где человек отвечает на “Позвони мне такси!” с “Хорошо, ты кабина!” явно неправильно истолковывает контекст, который не имеет смысла. В этом примере показано, как синтаксическое правильное предложение («ОК, вы кабины!» – это грамматически идеально! 🙂) не имеет смысла иметь смысл.

Техника для понимания текста

Погиб

Погиб, также называется Грамматическая метка или Слово категория Обратная ссылка , относится к процессу разметки слова в корпусе в соответствии с определенной частью речи, основанной на его определении, так и на контексте. Теги POS из проекта PENN Treebank, которые широко используются на практике, можно найти в этой ссылке.

Почему POS-теги важны?

POS-метка важна для неоднозначной выборки слова. POS-метка имеет значение в таких приложениях, таких как машина для перевода и информации.

Проблемы в погибке POS: из-за неотъемлемой неопределенности на языке, POS-теги не являются общими. ” То же слово может принимать разные теги в разных предложениях в зависимости от различных контекстов ».

Examples:

She saw a bear (bear-Noun); 
Your efforts will bear fruits (bear-Verb)

Where is the trash can? (can-Noun) ; 
I can do better! (can-Modal verb)

Существует несколько подходов к тегу POS, такие как подходы на основе правил, вероятностные (стохастические) POS-тегирование с использованием скрытых моделей Markov.

Неглубокое распределение/кусочки

Неглубокий разбор или хвалитель – это процесс разделения текста в синтаксически связанные группы. Он включает в себя разделение текста в не перекрывающееся смежное подмножество токенов. Неглубокие разборные сегменты и этикетки Multi-Token Sequence. Это важно в извлечении информации из текста для создания значимых подкомпонентов.

Именованное распознавание сущности (NER)

Целью именованного распознавания сущности (NER) является процессом автоматического поиска имен людей, мест и организаций в тексте на многих языках. NER используется в добыче информации для идентификации и выписки по именованным объектам в предопределенных классах. Именные сущности в тексте являются те объекты, которые часто являются более информативными и контекстно-контекстами.

Ключевые шаги включают в себя

  • Определение именованного объекта
  • Извлечение именованного сущности
  • Классифицировать названный объект в теги, такие как человек, организация, местоположение и т. Д.

Понимание н-грамм

N-Grams – это модель полезной язык, направленная на нахождение распределений вероятностей по слову последовательности. N-грамм по существу означает последовательность n слов. Рассмотрим простое примерное предложение «Это большая книга AI BADE,« Чья Unigrams, Bigrams и Trigrams показаны ниже.

Понимание математики

P(w|h): Probability of word w, given some history h
Example: P(because| today I am happy)
w: because
h: today I am happy

# Approach 1: Relative Frequency Count
Step 1: Take a text corpus
Step 2: Count the number of times 'today I am happy' appears
Step 3: Count the number of times it is followed by 'because'

P(because| today I am happy) =
Count(today I am happy because)/
Count(today I am happy)
# In essence, we seek to answer the question, 
Out of the N times we saw the history h, 
how many times did the word w follow it?


# Disadvantages of the approach:

When the size of the text corpus is large, 
then this approach has to traverse the entire corpus. 
Not scalable and is clearly suboptimal in performance.

# Approach 2: Bigram Model
Bigram model approximates the probability of a word given all the previous words by using only the conditional probability of the preceding word. 

Предположение, что вероятность возникновения слова зависит только от предыдущего слова (предположение Маркова) довольно сильное; В целом, модель N-граммов предполагает зависимость от предыдущих (N-1) слов. На практике этот N – гиперпараметр, который мы можем играть вокруг, чтобы проверить, какой N оптимизирует производительность модели на конкретной задаче, скажем, анализ настроений, текстовая классификация и т. Д.

Сделав все вместе, мы охватывали различия между синтаксическим и семантическим анализом, важной точкой POS-меткой, именованного распознавания объекта (NER) и хвалить в текстовом анализе и кратко посмотрели на концепцию N-грамм для моделирования языка.

использованная литература

Ниже приведена ссылка на ноутбук Google Colab, который объясняет реализацию POS-тегов, разборки и именованного распознавания объекта (NER) на «Все новости» DataSet из Kaggle, который содержит 143 000 изделий из 15 публикаций.

Обложка Изображение: Фото Эд Робертсон на Бессмысленно

Начало работы с NLP (2 часть серии)

Оригинал: “https://dev.to/balapriya/feature-engineering-for-nlp-4e1l”