Introdu��o � Minera��o Textual de dados

Por que eu devo ler este artigo:A minera��o de texto permite a descoberta de informa��o �til a partir de dados n�o estruturados. Trata-se de uma �rea da minera��o de dados que envolve uma s�rie de desafios. Neste artigo apresentaremos alguns conceitos que fundamentam a �rea e t�cnicas que podem ser utilizadas para realizar esta atividade. Ao final, ser�o apresentados os conceitos utilizados no desenvolvimento de uma ferramenta que apoia a descoberta de informa��es em dados n�o estruturados. A discuss�o deste tema � �til uma vez que minera��o textual possui diversas �reas de aplica��o como gerenciamento do relacionamento com o cliente, suporte t�cnico e monitoramento de opini�o p�blica, dentre outras.
Autores: M�rio Andr� de Freitas Farias, Methanias Cola�o J�nior e Evandro de Barros Costa

A informa��o � vista como parte sutil do capital e consiste em um dos bens mais valiosos dentro de uma organiza��o. Dispor da informa��o correta no momento oportuno vem sendo caracterizado como um imprescind�vel diferencial para gestores de empresas.

A coleta intensiva de dados n�o estruturados atrav�s de atividades di�rias como relat�rios de sistemas, listas de discuss�o, question�rios eletr�nicos, c�digo fonte de sistemas e log de erros prov� informa��es valiosas que podem se revelar como uma fonte promissora para a minera��o de dados, em espec�fico a minera��o de texto. Contudo, dispor de uma mina de dados n�o � garantia de um diferencial competitivo. Uma vasta quantidade informacional n�o assegura uma posi��o de destaque no ranking das melhores organiza��es � al�m de possuir a informa��o, � necess�rio dispor de mecanismos que facilitem esse processo de recupera��o, objeto de estudo da �rea conhecida como recupera��o da informa��o.

Uma defini��o de minera��o de dados infere que se trata de uma tecnologia que visa extrair automaticamente conhecimento �til, confi�vel e n�o trivial de uma base de dados. De forma an�loga � minera��o de dados, a minera��o de texto procura descobrir conhecimentos �teis em �minas� de dados textuais, ou seja, n�o estruturadas. Desta forma, apresenta-se como uma forma de garimpar grandes bases em busca da informa��o necess�ria para o processo de tomada de decis�o.

A minera��o de texto vem sendo uma alternativa importante para a descoberta de padr�es ocultos em diversas �reas do conhecimento, entre elas a de engenharia de software. Entretanto, minerar dados na forma de linguagem natural n�o � uma tarefa trivial. Textos s�o escritos e organizados de forma livre e na maioria das vezes as informa��es n�o est�o dispon�veis em apenas uma fonte de dados. T�cnicas refinadas de minera��o e recupera��o da informa��o combinadas com m�todos estat�sticos e um dicion�rio especializado s�o comuns na constru��o de ferramentas de minera��o de texto, retratando um verdadeiro processo de minera��o.

Embora o termo minera��o de texto seja relativamente novo, esta �rea est� ligada diretamente a pesquisas em recupera��o da informa��o - RI. No contexto de RI, as informa��es podem ser oriundas de textos, imagens, �udio, v�deo e outros objetos multim�dia. Nos �ltimos anos, houve um crescimento em pesquisas relacionadas � recupera��o da informa��o em virtude da dissemina��o dessas informa��es digitais.

Recupera��o da Informa��o

O termo recupera��o da informa��o originou-se na d�cada de 60, quando grandes sistemas foram desenvolvidos para mainframes com o objetivo de tratarem cole��es de documentos n�o estruturados. Nos anos 80, esses sistemas ganharam interfaces intermedi�rias para PC�s com o prop�sito de viabilizar pesquisas e a recupera��o de dados. Eram pesquisas baseadas em palavras chave, ainda hoje utilizadas em alguns motores de busca na web. Em meandros da d�cada de 90, os esfor�os no desenvolvimento de sistemas de RI foram focados em desempenho, conectividade e em pequenas melhorias na utiliza��o de processamento de linguagem natural.

A utiliza��o de palavras chave em quest�es simples � suficiente para a recupera��o de informa��o, mas quando se tem quest�es mais complexas, o uso apenas desse recurso n�o � condi��o para se ter respostas satisfat�rias. Portanto, a utiliza��o crescente de processamento de linguagem natural (PLN) vem crescendo em ferramentas de recupera��o de informa��o textual. Em sistemas de recupera��o de informa��o que n�o uti ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO