Как извлечь высокочастотные слова в NLTK

Автор оригинала: Shun Yamada.

Читая официальный документ для NLTK (инструментарий натурального языка), я попытался извлекать слова, которые часто используются в тексте образца. На этот раз я пытался позволить самым частоте тремя словами быть на дисплее.

Разработка

Питон
NLTK.

Установите NLTK

$ pip install nltk

Извлечь высокочастотные слова

Позвольте мне кодировать начинаться. Вы должны скачать панкт и avered_perception_tagger Первоначально для бега токена токена приобретения в речевой части. Далее прочитайте образец текста и преобразуйте его в разделение слов из текста. И удалить не существительные вещи из этого результата. Наконец, получи самые частые слова.

Скачать

import nltk

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

Импортировать NLTK, а затем скачать панкт и avered_perception_trigger Отказ После загрузки в среду вам не нужно делать это снова.

Конвертировать тексты до токена слова

raw = open('sample.txt').read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

tokens_l = [w.lower() for w in tokens]

Подготовьте некоторые эссе или длинные тексты. Прочитав это, это должно быть токена словом. Затем создайте случаи капитала в более низкие случаи, они должны быть распознаны как одинаково.

Извлечь только существительное

only_nn = [x for (x,y) in pos if y in ('NN')]

freq = nltk.FreqDist(only_nn)

Удалить слова не существительных из этого результата. И рассчитать, как частота этих слов включены.

Получите самые частые три слова

print(freq.most_common(3))

После подсчета частых слов вы можете получить три лучших по most_common () Отказ

Оригинал: “https://dev.to/shyamady/how-to-extract-high-frequency-words-in-nltk-47p1”