Mineração com aprendizagem de máquina

Por que eu devo ler este artigo:A minera��o de sentimentos � uma �rea que est� se tornando cada vez mais relevante atualmente, j� que com a ascens�o de redes sociais e ferramentas de compartilhamento de avalia��es sobre produtos ou servi�os, a quantidade de textos dispon�veis na web � bastante grande.

Isso caracteriza uma oportunidade para analisar esses textos com o intuito de obter os sentimentos associados. Desta forma, as empresas podem entender melhor seus clientes, identificando de forma autom�tica se as pessoas est�o falando bem ou mal e qual o sentimento que um produto em espec�fico tem trazido a seus clientes.

Este artigo apresenta o desenvolvimento de um pequeno exemplo que realiza a identifica��o autom�tica dos sentimentos alegria e tristeza em frases, no qual o usu�rio poder� submeter um texto e ter� como resultado o sentimento correspondente. Para isso, ser�o aplicados conceitos de aprendizagem de m�quina e minera��o de textos na constru��o deste classificador de sentimentos.
Autores: Jones Granatyr,Juliana Ruby,Otto Robert Lessing e Fabr�cio Enembreck

A minera��o e an�lise de sentimentos � um campo de pesquisa que est� se tornando cada vez mais utilizado dentro da Intelig�ncia Artificial, e isso se deve ao fato de que atrav�s da utiliza��o dessas t�cnicas, insatisfa��es e opini�es de clientes podem ser automaticamente percebidas.

A web � um dos principais canais de comunica��o da atualidade, portanto, muitos usu�rios est�o conectados a redes sociais, sites de pesquisa, ferramentas de avalia��o e sites de com�rcio eletr�nico.

Neste contexto, geralmente os usu�rios deixam suas impress�es em forma de texto ap�s terem tido suas experi�ncias, tais como opini�es sobre viagens, hot�is, produtos ou servi�os. Vamos supor que uma pessoa compre uma televis�o da marca XYZ e ap�s ter assistido alguns filmes, escreve a seguinte opini�o em uma rede social: �Estou decepcionado e frustrado com esta televis�o da XYZ, pois a resolu��o das imagens � ruim e o som � p�ssimo!�.

Podemos notar que esta frase possui uma polaridade negativa que pode ser associada a sentimentos de raiva, tristeza ou decep��o, denotando claramente a insatisfa��o do cliente com o produto. Conhecendo o sentimento associado aos coment�rios, as empresas podem entender melhor as necessidades de seus clientes e tamb�m conhecer o que eles est�o sentindo em rela��o aos produtos e servi�os por ela oferecidos, bem como saber se as pessoas est�o escrevendo bem ou mal sobre a empresa.

Analisar manualmente os sentimentos de algumas poucas frases n�o � um trabalho custoso, por�m, quando o n�mero de opini�es � alto como no caso da web, s�o necess�rias t�cnicas para realizar esse processo de forma autom�tica.

Neste contexto que aparece a an�lise autom�tica de sentimentos, que visa buscar o sentimento predominante em textos por meio de t�cnicas de aprendizagem de m�quina. Ela � tamb�m uma �rea do processamento de linguagem natural (PLN) e minera��o de textos, que visam extrair conhecimento �til em informa��es textuais.

Nota: Na se��o de Links pode ser encontrado um artigo te�rico que explana todos os processos e aplica��es da minera��o de textos

Neste artigo, ser�o abordados os conceitos fundamentais sobre aprendizagem de m�quina e como utilizar essas t�cnicas no processamento autom�tico de textos, sendo explanado os conceitos sobre um dos algoritmos mais utilizados para tarefas de classifica��o de texto, que � o Naive Bayes.

Ser� constru�do um exemplo de minera��o de sentimentos utilizando a linguagem Python com aux�lio na biblioteca NLTK (Natural Language Toolkit) para processamento de linguagem natural. O objetivo do exemplo � mostrar na teoria e pr�tica todas as etapas para constru��o de um sistema para identificar automaticamente os sentimentos de alegria e tristeza em frases.

Tais etapas envolvem desde a cria��o da base de dados de treinamento, o pr�-processamento das frases at� os tentes, no qual entraremos uma nova frase e o sistema ser� capaz de identificar o sentimento correspondente.

Aprendizagem de m�quina

A aprendizagem de m�quina � um campo da Intelig�ncia Artificial que tem como objetivo fazer com que o computador aprenda por meio de treinamento, e depois, seja capaz de tomar decis�es ou indicar respostas com base no que ele aprendeu.

� similar ao processo de como os humanos aprendem a tomar decis�es ou a realizar determinadas tarefas. Considere o exemplo de um aluno que antes de uma prova de matem�tica, realiza muitos exerc�cios com o objetivo de aprender a como resolver as quest�es. Somente depois de fazer muitos exerc�cios � que este aluno estar� apto a fazer a prova e testar os seus conhecimentos.

Os humanos utilizam processos cognitivos para aprenderem a resolver os problemas, enquanto que as m�quinas precisam de algoritmos para que o processo de aprendizagem possa ocorrer.

A maioria desses algoritmos possui a caracter�stica de tomarem as decis�es por meio da an�lise de conhecimentos pr�vios, o que indica que precisamos fornecer algum tipo de base de dados ao sistema para que ele possa fazer as infer�ncias posteriores.

Existem basicamente duas abordagens para o aprendizado de m�quina, que � a supervisionada e a n�o supervisionada. A primeira � caracterizada pelo fato de que existe a figura de um supervisor ou professor que ensina o algoritmo o que cada registro significa.

Exemplos s�o os sistemas de classifica��o, que por meio da an�lise dos dados de uma pessoa deve classificar se ela ir� ou n�o pagar um empr�stimo. No outro tipo de aprendizagem, n�o existe a figura do supervisor e o pr�prio algoritmo que dever� encontrar padr�es nos dados.

Um exemplo � o agrupamento, que por meio da an�lise de dados de clientes, pode separa-los em grupos propensos a comprar determinados tipos de produtos. No exemplo que construiremos a seguir, utilizaremos a aprendizagem supervisionada.

Passos para a constru��o de um sistema com aprendizagem de m�quina supervisionada

Esta se��o tem o objetivo de apresentar as principais tarefas para a constru��o de um sistema de aprendizagem de m�quina, abordando a extra��o de caracter�sticas, a constru��o da base de dados e do classificador, para, por �ltimo, mostrar como o sistema aprende e realiza previs�es. Ser� utilizado o algoritmo Naive Bayes (BOX 1) para exemplificar o processo de aprendizagem e classifica��o.

BOX 1. Algoritmo Naive Bayes

� bastante utilizado para classifica��o de texto e possui um forte fundamento estat�stico, utilizando v�rios conceitos de probabilidade, sendo baseado principalmente no Teorema de Bayes. Para maiores detalhes sobre seu funcionamento e toda sua fundamenta��o te�rica, visite a se��o de links e veja o artigo �Minera��o de dados na pr�tica�.

Extra��o de caracter�sticas

O primeiro passo para ensinar um computador a identificar padr�es � a etapa de extra��o de caracter�sticas, que consiste em analisar cada um dos objetos existentes dentro do sistema e extrair aquilo que os diferencia e � espec�fico de cada um. Para exemplificar, vamos utilizar as imagens dos personagens Homer e Bart do desenho animado Os Simpsons, as quais s�o mostradas na Figura 1.

Com base nelas, precisamos identificar os atributos �nicos de cada personagem com o objetivo de selecionar caracter�sticas �nicas. Para o Homer podemos definir o formato da cabe�a oval, os fios de cabelo, o tamanho da barriga, a barba, a cal�a azul claro, a camisa branca e o sapato preto.

Por outro lado, para o Bart podemos selecionar o formato da cabe�a e cabelo, a camisa laranja, o cal��o e o sapato azul. Como podemos notar, essas caracter�sticas s�o particulares de cada personagem e est�o presentes na maioria das imagens.

Vale tamb�m lembrar que, dependendo do tipo de aplica��o, ser�o necess�rias centenas ou at� milhares de objetos (imagens) para que o processo de extra��o de caracter�sticas seja significativo.

Figura 1. Caracter�sticas do Homer e Bart

Outro fator que deve ser considerado � a variabilidade dos objetos, que pode ser observada na Figura 2. Note que o Homer n�o mais apresenta nenhuma das caracter�sticas elencadas anteriormente, por�m, n�o deixa de ser uma imagem do Homer. Por outro lado, a imagem do Bart n�o apresenta mais a camisa laranja e o formato do cabelo apresenta-se um pouco diferente do seu padr�o habitual.

Essas duas imagens est�o fora do padr�o original de ambos os personagens e provavelmente gerar�o erros de classifica��o. Existem na literatura diversas t�cnicas somente para extra��o de caracter�sticas e que podem lidar substancialmente com este tipo de problema, por�m, elas est�o fora do escopo deste artigo.

O objetivo de mostrar esse tipo de situa��o � para o leitor entender que o processo de reconhecimento de padr�es � complexo e s�o necess�rias v�rias t�cnicas para tentar atingir um desempenho melhor, os quais devem levar em conta esse tipo de situa��o.

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Devmedia Em 2014

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Minera��o com aprendizagem de m�quina

Aprenda com esse artigo a identificar sentimentos em frases utilizando aprendizagem de m�quina.