Рубрики
Без рубрики

NLP за 3 минуты

Что такое NLP: NLP является аббревиатурой для естественного языка обработки, который является подполе AI … Tagged с Python, Machinelearning, AI, NLTK.

Что такое NLP:

NLP является аббревиатурой для естественного языка обработки, который является подполе ИИ, где он пытается интерпретировать и понимать человеческий язык с помощью различных методов извлечения информации, NLP стремится сделать взаимодействие между компьютерами и человеком более плавным в той степени, в которой компьютер может овладеть Человеческий язык и понимать его, NLP имеет две основные поля под его капюшоном, которые NLU (понимание естественного языка) и NLG (генерация естественного языка) пытается понять человеческий текст и речь, извлекая данные из разных источников (блог, статьи и т. Д.) В то время как NLG пытается генерировать данные на определенном языке, представьте, что кто-то пытается написать абзац на языке, отличном от его родного (родной язык компьютера равен 0 и 1), не изучая язык, сначала он может T Так, как машина или компьютер, чтобы понять человеческий язык, трубопровод NLP начинается с действий и процессов NLU, а затем NLG, потому что S Normal не может написать абзац или суммирование SE текст без понимания.

Что такое nltk:

NLTK-это набор инструментов естественного языка в Python, это библиотека NLP, используемая для выполнения функций NLP в Python, как распознавание с именом-энтитом или обучение на корпусе, POS (часть тега речевого тега), Stemming, Lemmitizing и A-lot различных функций.

Некоторые определения NLP:

1.corpus: Корпус – это очень простой термин, это коллекция слов и предложений, и он доступен на разных языках, он охватывает диалоги из фильмов, цитат, имен и т. Д. Но я считаю, что это поддерживает больше языков.

2.pos (часть тегации речи): Часть речевого тега используется для определения слова в предложении, будь то существительное, наречие, глагол, прилагательное, про-между-существа и многие другие состояния, которые я был очарован им, когда увидел в NLTK.

3. Леммит: Lemmitizing-это известная техника, используемая в лингвистике, он не ограничивается только NLP только A-LOT методов, представленных до сих пор, связаны с лингвистикой больше, чем информация или ML, поскольку NLP является соединением между лингвистикой и машинным обучением или или машинным обучением или машинным обучением или машинным обучением или машинным обучением или машинным обучением или машинным обучением или машинным обучением или машинным обучением или машинным Мы можем рассмотреть одно из приложений ИИ или доменов в лингвистике, что в основном делает это слово в нормальное состояние, удаляя дополнительные символы или преобразование слова в прилагательное или глагол.

4. Steemming: вариация леммитзации, лично я не нахожу Stemming Полезно (не понимает, что это использование), леммитзация намного лучше и точнее.

5. Намяженное признание: признание именованного объекта классифицирует слова или предложения по категориям, названию, компании, городу и т. Д. Он определяет, является ли слово в предложении именем человека или городом или городом или любой категорией, к которой оно принадлежит, алгоритм распознавания имени-это модель, подготовленная на разных корпусах, чтобы узнать, как классифицировать слова в сущности.

6. Токенизация слов: Any-One, знакомый с Python, найдет эту концепцию довольно простой, токенизатор разбивает предложение на слова, у NLTK есть потрясающая особенность, есть два типа токенизаторов, слова и предложения, где Word Tokenizer разбивает абзац в слова в то время как предложение-токензер разбивает абзац на более мелкие предложения.

NLP в действии: теперь я пишу две небольшие программы, чтобы практически продемонстрировать, насколько полезным может быть NLTK, попробуйте угадать концепции, используемые в программах.

   import nltk 
   from nltk.tokenize import word_tokenize
   Text = "I am wondering who did produce Tom and Jerry Series is 
   it Disney or Netflix?"
   tokenized_sentence= new word_tokenize(Text)
   tagged_sentence = nltk.pos_tag(Text)
   for word in tokenized_sentence: 
     print(word) 
   print(tagged_sentence)
   import nltk 
   from nltk.tokenize import word_tokenize
   Text = "Elon Musk wants to Colonize mars but i believe 
   SpaceX and even Nasa still have a long road to take "
   tokenized_sentence= word_tokenize(Text)
   tagged_sentence = nltk.pos_tag(tokenized_sentence)
   Sentence_entities = nltk.chunk.ne_chunk(tagged_sentence)

Весело читать: https://www.datacamp.com/community/tutorials/text-analytics-beginners-nltk https://pythonprogramming.net/lemmatizing-nltk-tutorialhttps://www.datacamp.com/community/tutorials/text-analytics-beginners-nltk https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fnatural-language-processing-nlp-top-10-applications-to-know-b2c80bd428cb

Оригинал: “https://dev.to/12mohaned/nlp-in-5-minutes-2k52”