Mineração de texto - Conceitos e aplicações práticas

De que se trata o artigo:

A Minera��o de texto � um processo que utiliza algoritmos capazes de analisar cole��es de documentos texto - tais como arquivos PDF, p�ginas Web, documentos XML e campos CLOB ou VARCHAR de tabelas relacionais - com o objetivo de extrair conhecimento valioso. Este artigo introduz os principais conceitos e aplica��es pr�ticas da minera��o de texto.

Em que situa��o o tema �til:

Nos �ltimos anos a minera��o de texto tem atra�do o interesse n�o apenas dos pesquisadores em Ci�ncia da Computa��o, mas tamb�m das empresas, que procuram extrair conhecimento a partir de texto livre ou semiestruturado com o objetivo de conquistar um melhor posicionamento no mercado. Neste artigo, apresentamos um panorama geral da �rea de minera��o de texto para alunos e profissionais de inform�tica que desejem estudar, trabalhar ou simplesmente conhecer um pouco mais sobre o assunto.

Resumo DevMan:

Este artigo apresenta os conceitos fundamentais sobre minera��o de texto. Inicialmente, o artigo descreve o cen�rio que motivou o surgimento da �rea no final dos anos 90. A seguir, mostra os problemas pr�ticos que a minera��o de texto vem ajudando a resolver, tanto em ambiente acad�mico como dentro das empresas. Por fim, o artigo apresenta uma descri��o das principais etapas envolvidas em processos de minera��o de texto reais, utilizando como exemplo a tarefa de classifica��o de texto.

A maior parte da informa��o dispon�vel no mundo n�o est� - e, de fato, jamais esteve! - armazenada em tabelas de bancos de dados relacionais. Ao inv�s disso, se encontra disponibilizada digitalmente como texto: livros, jornais, revistas, p�ginas Web, blogs, perfis de redes sociais, e-mails, arquivos PDF, documentos XML, arquivos JSON, etc. No final dos anos 90 esta situa��o foi percebida tanto por pesquisadores como pelas empresas. Mais ou menos nesta �poca surgiu a seguinte ideia: �que tal analisarmos estas �montanhas de texto digital� para que novas informa��es sobre nossos clientes, fornecedores, produtos e servi�os possam ser reveladas e, assim, utilizadas de forma estrat�gica em processos de tomada de decis�es?�.

A ideia � bastante atraente, entretanto, nada simples de ser colocada em pr�tica. Para come�ar, quando trabalhamos com dados textuais precisamos lidar com informa��es que, na maioria das vezes, n�o possuem um esquema para descrever a sua estrutura. Ou seja, ao contr�rio do que acontece com os �bem-comportados� dados estruturados em tabelas relacionais, os dados textuais normalmente n�o est�o organizados em campos, cada qual com seu tipo, tamanho e faixas de valores poss�veis. Sendo assim, comparada com a informa��o gravada em SGBDs relacionais, a informa��o em formato texto � bem mais dif�cil de coletar, tratar, analisar e sumarizar.

Esta situa��o motivou o surgimento da minera��o de texto (text mining), uma sub�rea da minera��o de dados interessada no desenvolvimento de t�cnicas e processos para a descoberta autom�tica de conhecimento valioso a partir de cole��es de documentos texto. Este artigo apresenta um panorama geral desta �rea para todos aqueles que desejem trabalhar com minera��o de texto, tanto em pesquisas acad�micas como nas empresas, ou que simplesmente tenham curiosidade em conhecer os conceitos b�sicos sobre o assunto. O artigo est� dividido em duas partes. Na primeira, denominada �Tarefas de Minera��o de Texto�, s�o apresentadas as mais importantes aplica��es pr�ticas desta tecnologia nos dias atuais. A parte seguinte, denominada �Minera��o de Texto Passo-a-Passo�, � composta por um conte�do mais t�cnico, consistindo na apresenta��o de um exemplo que descreve as etapas executadas durante um processo de minera��o de texto.

Tarefas de minera��o de texto

As tarefas de minera��o de texto podem ser entendidas como as diferentes categorias de problemas que podem ser resolvidos atrav�s de processos de minera��o de texto. Esta se��o introduz as mais importantes atrav�s de uma abordagem simples e pr�tica: apresentando n�o apenas as tarefas propriamente ditas, mas tamb�m uma s�rie de exemplos de aplica��es reais que podem ser solucionadas com o uso das mesmas. Durante a leitura da se��o, voc� notar� que o texto a ser minerado pode estar armazenado em dois diferentes formatos:

Texto Livre: trata-se de texto escrito em alguma linguagem natural - como Portugu�s, Ingl�s, Italiano, etc. � que cont�m pouca ou nenhuma marca de estrutura��o. Alguns exemplos: artigos de revista, cap�tulos de livro, texto do corpo de um e-mail, arquivos PDF, entre outros. Nesta categoria tamb�m podem ser inclu�dos os campos descritivos de tabelas de bancos de dados relacionais, como CLOB, Memo e VARCHAR, j� que eles s�o criados com o intuito de armazenar texto livre. Em muitos sistemas reais os textos armazenados nestes campos s�o consideravelmente longos e complexos (ex: um campo CLOB utilizado para armazenar a descri��o de um atendimento em um sistema de help desk).
Texto Semiestruturado: documentos que, mesmo sem possuir um esquema r�gido para validar seus dados, cont�m alguma estrutura. Os dois principais exemplos s�o os documentos XML, onde as informa��es encontram-se demarcadas entre tags, e os arquivos JSON, que s�o compostos por pares atributo/valor.

Nos itens a seguir, as principais tarefas de minera��o de texto s�o introduzidas e suas aplica��es pr�ticas s�o relacionadas e comentadas.

Classifica��o de Texto

Esta �, provavelmente, a tarefa de minera��o de texto mais conhecida e utilizada. O objetivo � realizar a associa��o autom�tica de documentos texto a uma determinada classe, pertencente a um conjunto pr�-definido de classes. Um exemplo de classificador de texto bastante conhecido e bem-sucedido encontra-se nos programas para filtragem de spam. A partir da an�lise do assunto e do texto de uma mensagem, o programa utiliza um algoritmo classificador de texto para identificar automaticamente se esta mensagem deve ser classificada como �normal� ou �spam� (Figura 1).

Figura 1. Classificador de spam.

Outro exemplo interessante de aplica��o pr�tica para a classifica��o de texto � descrito em [1]. Trata-se do algoritmo utilizado pelo Internet Explorer para identificar o idioma de uma p�gina Web. Esse algoritmo � disparado sempre que o IE se depara com uma p�gina que n�o possua informa��o sobre o seu Content-Type, ou seja, uma p�gina que n�o informe explicitamente o idioma do texto e a codifica��o utilizada para represent�-lo (UTF-8, latin-1, etc.). Se a p�gina contiver caracteres espec�ficos de uma determinada codifica��o X (ex: japon�s) e o IE utilizar uma codifica��o Y (ex: russo) para interpret�-la, o resultado � bem conhecido de todos n�s: a exibi��o de �lixo� na tela ou de um monte de pontinhos de interroga��o �???? ??? ??�. Mas como o IE procede para classificar o idioma da p�gina? A ideia b�sica consiste em tentar �advinha-lo� baseado na frequ�ncia com que determinadas sequ�ncias de bytes ocorram no texto. Pelo fato de cada linguagem humana possuir um padr�o distinto de uso de letras, o IE �conhece� alguns conjuntos de sequencias associadas a textos escritos em diferentes idiomas. Deste modo, basta com que o IE compare as sequ�ncias encontradas na p�gina com as sequ�ncias por ele conhecidas para classificar o idioma da p�gina.

...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Eduardo Em 2012

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Minera��o de texto - Conceitos e aplica��es pr�ticas - Revista SQL Magazine 105

A Minera��o de texto � um processo que utiliza algoritmos capazes de analisar cole��es de documentos texto com o objetivo de extrair conhecimento.