Автор оригинала: Python Examples.
Python NLTK stemming
Stemming – это процесс резки некоторых общих префиксов или суффиксов, возникающих в начале или окончании слова (или стебля).
Stemming – это очень полезная техника обработки естественного языка (NLP), которая помогает очистить и уменьшить размер ввода.
Ниже приведен простой пример, где во втором колонке обозначает стебель слов, присутствующих в первом столбце. Часть слова, которое помечено, представляют собой суффиксы, которые будут удалены востребованным алгоритмом.
| студия | изучение |
| студия | изучение |
| студия | изучение |
Чтобы выполнить stemming с помощью Python NLTK, создайте объект Porterstemmer и функцию вызова STEM () на объекте. Передайте слово к функции ствола (). Функция STEM () возвращает стебель прошедшего аргумента.
Пример 1: NLTK stemming
В этом примере мы выполним NLTK stemming в списке слов, используя функцию Stem () и Python для петли.
Python Program
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
# create stemmer object
ps = PorterStemmer()
#list of words whose stem we shall find out
words = ["study", "studies", "studying", "studied"]
for w in words:
print(w, "-", ps.stem(w))Выход
study - studi studies - studi studying - studi studied - studi
Резюме
В этом учете NLTK учебник примеров Python мы узнали, как выполнить NLTK stemming.