Рубрики
Без рубрики

NLP & Python: введение с кодом

Привет, это мой первый пост, и я хочу поделиться некоторыми примерами, которые я недавно загрузил в мой github rel … Помечено с MachineLearning, Python, NLP.

Привет, это мой первый пост, и я хочу поделиться некоторыми примерами, которые я недавно загрузил в мой github, связанный с тем, как начать работать с обработкой натуральной языке с помощью Python.

Есть некоторые очки, которые являются некоторыми актуальными, когда вы начинаете работать в проекты NLP или, возможно, просто хотите прототип идеи. Ниже я разделяю некоторые концепции/методики, которые являются частью всех проектов NLP.

Токенизация

Процесс расстаться от исходного текста на компонентные кусочки под названием «токены». Токены являются основным строительным блоком объекта документа. Это основная информация, которая помогает нам понять, что значение текста получено из токенов и их взаимосвязей друг к другу.

Stemming.

Процесс найти вариации от одного ключевого слова. Например, когда вы ищете «лодку», могут также возвращаться: «лодка», «лодки». Для этого лодка будет стебель для лодки, лодки, лодки, лодки.

Steam связан с способом, способным каталогами, связанным с словами, основанные на ключевых слов, определенных ранее. Метод принимает первую букву и внес изменение последних для того, чтобы сделать ключевое слово более вероятным.

Алгоритм Martin Porter – это одна из самых известных реализаций, так как stemming Tools, поскольку включают пять этапов сокращения слова на основе правил сопоставления. Начиная с суффикса (конец строки), заменяя некоторые буквы, которые ищут сходство между словами, идущими в примитивную форму.

Лемматизация

С другой стороны, лемматизация ищет снижение слова на основе морфологического анализа слов. Например, лемма «встреча» может быть «встреча» или может быть «встреча» в зависимости от ее использования в предложении. В отличие от stemming, этот метод является более информативным, если смотреть уменьшение слова.

Стоп слова

Есть один из самых используемых во всех проектах. В нескольких словах есть слова, которые часто появляются, и они не являются существительными, глаголами или модификаторами. Это слова не требуют метки.

Часть речи “POS”

То же слово в другом порядке может означать что-то совершенно другое. Контекст определяет значение слов. То же самое слова в разном порядке могут означать что-то совершенно другое.

Названное распознавание сущности «NER»

Этот метод находит и классифицирует и классифицировать названное сущность упоминания в неструктурированном тексте в предопределенные категории, такие как имена лица, организации, местоположения, медицинские коды, временные выражения, денежные, количество, проценты и так далее. Spacy – одна из лучших библиотек, которые управляют этой концепцией.

Извлечение функций

Модели обучения машины не могут принимать необработанный текст для обработки, по этой причине мы должны предварительно обработать текст на основе частоты слов и преобразовать эту информацию в числовых значениях.

Sklearn предоставляет функцию для вектора сырья в качестве деталей (как токены) и начать анализ.

  • Термин-частота: с использованием функции векторизации подсведателя Мы можем создать матрицу документа (DTM) генерирует матрицу для каждого уникального слова в RAW текст и подсчитывать для каждого. После этого у нас есть массив для каждого слова и количество вхождений в тексте.

  • Обратная частота документа: на основе TF объяснена ранее, это определяет вес для каждого слова, но после обратной логики. Если слово очень часто, вес будет меньше, чем слово, которое появляется всего несколько раз. После этого применяется функция журнала для расчета скорости для каждого слова.

Обе методы поддерживаются в Sklearn для обработки текста.

Семантический анализ с использованием Vader

VADER (Валентное словоware Sictionary для рассуждения настроения) является еще одной моделью для использования в сентиментальном анализе, которая чувствительна к обельной полярности (положительному или отрицательному) и интенсивности эмоций. «Оценка» будет рассчитана суммирование интенсивности каждого слова в тексте (положительный, отрицательный, сильный)

Тема моделирования

Проанализировать и классифицировать большие объемы текста путем кластеризации документов в темы. Откройте для себя этикетки или категории – это проблема для этой деятельности. Группа по документам с аналогичной темой. Это часть безоговорочном обучении.

Хватит читать и начать кодирование! Вот ссылка с примерами: [ https://github.com/fsartoris/nlp Несомненно

Спасибо.

Оригинал: “https://dev.to/fsartoris/nlp-python-an-introduction-with-code-18in”