Рубрики
Без рубрики

Análise de sentimento com Artrendizado Superizedado E Não Superizeado

Análise de sentimento, OU MINERASHãO de Meanião, Tem Como Objetivo Идентифицирован o sentimento de Algué … Теги с машинным обучением, Python.

Análise de sentimento, OU Mineração de Meanian, Tem Como ObjeTivo Идентифицирован o sentimento de Alguém Por Qualquer Coisa Através de UM Texto EM Linguagem Natural. Anlise E Feita Para Encontrar Polaridades Нет Texto, SE Algo Escrito é Positivo Ou Negativo, E NãAo Outalhade Engontra Emoções Mais Detalhadas. Essa Técnica é Extremente USADA PELAS EMPRESAS PARA, POR Exemplo, Medir Aceitação de Um Produto.

Как Técnicas Utilizadas Para A Anlise São de Estatística E De de Machine обучение. Neste Artigo Vou explicaar Como Classificars rsse Textos Usando Redes Neurais, Para Artenendizado SuperizeADo, E orientação Semântica, Para UM Artenendizado Não Superizeaado (Para Intender Moleor Conceitos Iniciais de Machine обучение Veja Esse artigo Акхи ).

Как RNNS Reconhecem Padrões EM Entradas Sequenciais e São Usadas Para Tiversivess Tipos de EntraDas. Как дебисис Томадас нет Tempo T-1 Afetarão, как дебисис нет темп т. Diferente DAS. Redes Neurais Comuns, As redes rotorrentes Não Teashbeme AntaS Antrada Vinda DO DO DOSASET, MAS Também Recebeme O Estado Da Unidade Ansiory.

Entretanto, RNNS Básicas Não São Muito Boas Para Sequêancias Que Tepecirem de Uma Longa Memória. POR ESTE Motivo IremoS USAR A LSTM (долгосрочная память), UMA Arquitetura Baseada NA RNN.

Image Acima демонстрация Arquitetura de UMA LSTM. Esse Tipo de Rede Toxui 3 компонента:

Забудь ворота : Aqui a Rede Vai “Esquecer” O Que для Desnecessário. Passando сверхновая Энтрады е а SAIDA да camada передней Por Ума camada сигмовидный, Onde Tudo дия для removido Sera transformado ет 0. Essa Camada Ainda é Multiplicada Pelo Estado (Memória) Da Célula Anderior.

Входные ворота : Essa Parte É Respoatedável POR Adicionar Informação Ao Estado Da Célula. Primeiro é Feita UMA Verificação, Parecida COM O забыть ворота, Com Uma Sigmoid. ISTO E FEITO PARA REPASSAR APENAS как вакал информации INFORMACHõES, QUE Precisam Ser Adicionadas. DEPOIS UM VETOR É CRIADO PELA TANH, CONTENDO TODOS OS TOVEVIS Valores Que Podem Ser Adicionados. O Результат – дессы dois passos são multiplicados e depois somados com a saída забудьте ворота.

Выходные ворота : Nesse Passo, рецензионная решающая как Será Sua Saída. ASSIM COMO NAS ETAPAS ANDOWERES, EXIESE UMA SIGMOID PARA NOWNIZAR E SELECIONAR QUAIS OS Валорам Que Precisam Estar Na Saída. ALÉM DISOS, O ESTADO ATOUAL DA CÉLULA É PASSADO POR OUTRA TANH PARA GERAR TODOS OS Valores Tossíveis. Essas Duas Camadas São Multiplicadas, Formando O Выходные ворота.

O dataset usado aqui émat dataset público , Хамадо “Yelp” Que Contém Milhares de Revisões Sobre Vários Thetos de Comércios.

ESTE DataSet VEM Com Uma Coluna Chamada “Звезды”, COM COMSIXISISACãA DE CADA UMA DAS REVISõES. Aqui Adiciono a Coluna “Singment” Para Cabyizar A a Polarização Das Revisões.

PARA Qualkquer Tarefa Envolvendo Textos São Buildrios Alguns Pré-Plessamentos. Nesse Caso, Vamos Utilizar A Tokenização. Esse Método USA UMA Sequência de Texto E SOLA TODAS AS SUAS PALAVRAS, Removendo Algumas Pontuações. No Código Abaixo Também Foram Retirados Todos OS Caracteres Esshias.

O Modelo Que Vamos Utilizar é Bem Smples, Apenas Com UMA CAMADA DO LSTM E UMA CAMADA DENSA нет окончательной.

Essa Rede Super Smarks, Com Uma Época, Conseguiu 75% de Acurácia Com 15.000 Dados (Puquíssimos Dados).

Train on 10800 samples, validate on 1200 samples  
Epoch 1/1  
10800/10800 [==============================] - 1334s 124ms/step - loss: 0.7541 - acc: 0.6944 - val_loss: 0.6426 - val_acc: 0.7492  
Loss score: 0.61  
Test Accuracy: 75.37

O DataSet (поз ;;) TEM «POS» COMO CLASSE PRODOMINANTE, COM 66% DOS DADOS. Dado Isso, O Исходя из бассейна Para Esse Teste Teria Que Ser UMA Acurácia de 66%, Porce Caso “Chutássemos” Todas As Milles Como Positivas Acertaríamos Exatamente Isso. O que nos mostra que esse modeo realmente Aprendeu Algo.

Entretanto, Devemos Tomar Cuidado. O Método de AmoStragem Usado, Apesar de Ter Mesma Proporção de Da Classe Dominante No Dataset, Não Узнать, что Distribuiçãão Dos Dados Quando Seleciona As Instâncias. ISSO PORE GERAR UM MODEO ENVIESADO. UM Método Melhor Seria Selecionar Essas Instancias Mantendo A Proporção Da População.

MAS, E SE OS Dados Não Conterem Nenhuma Classificação Numérica, Ou Seja, Nenhum Rótulo?

Escreendem Algumas Autras Formas de Classificar Textos SEM Nenhum Rótulo. Utilizada Neste Artigo É A reartação Semântica (SO) de uma Palavra, Que Calcula a distncia dum um Termo Para Outro Termo Como ‘BOM’ OU ‘Mal’. O Cálculo Dessa Distância É Dado Pelo PMI ( Точечная взаимная информация). Onde T1 е T2 Podem Ser Quaisquer Palavras E P (TX) São Suas Probabilidades de ApareCerem No Texto.

E A A Roadação Semântica de Uma Palavra é Calculada Com Base Nos Resultados Do PMI, USANDO UM TERMO ( T ) DA FRASE ALALISADA E FARANDO COM ALGUM TERMO RETECHENTE AO CONVUNTO DE TERMOS ( T ‘ ) POSITIVOS ( V + ) OU Negativos ( V- ):

Para Essa Tarefa Coletei Alguns Tweets Que Continham Hashtag # WomenSwave (UM DOS Trending Timics No Twitter Sobre As Americas Americanas).

COMO Нет Código Anderior, Aqui Também é Feita Uma Tokenização Нет Pré-Plachentame. COMO OS Tweets Podem Ter Muitas Expressões que não São Reconhecidas Como Token É Preciso Deixá-Las Excensioncitas. Essas Expressões Estão Sendo Identialdasas Aqui Com Regex.

ALÉM DO PRE-PLASSACTADEO, ECARIO TIRAR ALGUMAS Стопварды Отказ Стопварды Сан-Палавры Кин Е.М. Геральная NãO Them UM COMO, COMO ALGUMAS CONCUNçõES E Artigos.

Nessa Parte Coletamos a Частонча-де-Када Палавра E A Hellência Da Co-Ocorência Entre Duas Palavras Нет Texto.

Quando Texto é Analisado, USAR UM Contexto Torna Essa Análise Mais Real Do Que Olhar Para, как Палавры Сепарадамент. Пор Иссы A Matriz de Co-Ocorêrência é montada.

Aqui é Calculada Вероятно, пробабидад DOS Termos Para Que, Soormente, Seja Calculado o PMI E O так.

Abaixo SegueM OS Vocabulários Positivos E Negativos E OS Cálculos делают PMI E так

As palavras mais positivas e as mais negativas: TOP POS:   
[('diversity', 13.247582522786834),   
('#usmidtermelections', 11.880054410636202),   
('guy', 10.995531628056138),   
('beating', 10.647393653845928),   
('general', 10.647393653845928),  
('function', 10.440942776378503),   
('adding', 10.358613835175579),   
('diverse', 9.880054410636202),  
('goddamned', 8.866248611111173),   
('#electionresults2', 8.866248611111173)]TOP NEG:   
[('control', -6.451211111832329),   
('sad', -9.451211111832329),   
('believe', -9.451211111832329),   
('1950', -9.451211111832329),   
('blinded', -10.451211111832329),   
('[https://t.co/nsvwwzd1dx'](https://t.co/nsvwwzd1dx'), -10.451211111832329),   
('cant', -10.451211111832329),   
('feel', -10.451211111832329),   
('civilty', -10.451211111832329),   
('flow', -10.451211111832329)]

Vovês Podem Perceber Que Algumas Palavras Não Parecem Ser que elas Workam Classificadas. Isso Porque Análise Feita Aqui Foi Bem Smples, Olhando Apenas Para Termos Próximos. Para Que Um Artrendizado Não Superizeado Seja Mais Assertivo Pode Ser Preciso Também UMA Análise Linguística, De Como A Frase É Formada, E Com Isso Identialile Meios Naturais de Sepressão.

Para Finalizar, Criei UMA Word Cloud Com O Bulledado Dos Termos Positivos:

Esse Artigo Foi Baseado Counly Countinations Nesses Dois AutoS Artigos Sobre Mineração de dados do Twitter E-SOBRE. Lstm Отказ Abaixo Deixo Mais Algumas Autras Refercias E Meus Repositórios No Github Com OS DOIS Projetos Complys, Olkurnindo O Código Da Coleta DOS Tweets e da слово облако.

Meu Github

Генерация WordClouds в Python

LSTM Networks

YELP DataSet

Оригинал: “https://dev.to/giselyalves13/analise-de-sentimento-com-aprendizado-supervisionado-e-nao-supervisionado-3j9h”