Автор оригинала: Shun Yamada.
Читая официальный документ для NLTK (инструментарий натурального языка), я попытался извлекать слова, которые часто используются в тексте образца. На этот раз я пытался позволить самым частоте тремя словами быть на дисплее.
Разработка
- Питон
- NLTK.
Установите NLTK
$ pip install nltk
Извлечь высокочастотные слова
Позвольте мне кодировать начинаться. Вы должны скачать панкт
и avered_perception_tagger
Первоначально для бега токена токена приобретения в речевой части. Далее прочитайте образец текста и преобразуйте его в разделение слов из текста. И удалить не существительные вещи из этого результата. Наконец, получи самые частые слова.
Скачать
import nltk nltk.download('punkt') nltk.download('averaged_perceptron_tagger')
Импортировать NLTK, а затем скачать панкт
и avered_perception_trigger
Отказ После загрузки в среду вам не нужно делать это снова.
Конвертировать тексты до токена слова
raw = open('sample.txt').read() tokens = nltk.word_tokenize(raw) text = nltk.Text(tokens) tokens_l = [w.lower() for w in tokens]
Подготовьте некоторые эссе или длинные тексты. Прочитав это, это должно быть токена словом. Затем создайте случаи капитала в более низкие случаи, они должны быть распознаны как одинаково.
Извлечь только существительное
only_nn = [x for (x,y) in pos if y in ('NN')] freq = nltk.FreqDist(only_nn)
Удалить слова не существительных из этого результата. И рассчитать, как частота этих слов включены.
Получите самые частые три слова
print(freq.most_common(3))
После подсчета частых слов вы можете получить три лучших по most_common ()
Отказ
Оригинал: “https://dev.to/shyamady/how-to-extract-high-frequency-words-in-nltk-47p1”