Contagem de Frequ�ncias de Palavras em Arquivos Texto em Java

1. Introdu��o

Na linguagem Java, um mapa (map) � um objeto que associa (ou �mapeia�) chaves com valores. Cada chave � sempre associada a, no m�ximo, um valor e n�o podem existir chaves duplicadas. A Figura 1 mostra um exemplo em que as chaves s�o nomes de pessoas e os valores s�o os n�meros de telefone das mesmas.

Figura 1: Mapa associando nomes (chave) e telefones (valor)

Existem in�meras aplica��es pr�ticas para os mapas. Este artigo apresenta uma das mais interessantes: usar este tipo de objeto com o objetivo de descobrir as palavras presentes em um determinado arquivo texto e computar as suas frequ�ncias (n�mero de ocorr�ncia de cada uma delas).

2. Computando as Frequ�ncias

A Listagem 1 apresenta o programa Java que utiliza um objeto do tipo java.util.HashMap para realizar a contagem de frequ�ncia de palavras. A explica��o sobre o funcionamento do programa � apresentada atrav�s de coment�rios colocados dentro do c�digo e em explica��es adicionais apresentadas na parte final deste artigo.

Listagem 1: Classe �ContaPalavras�


import java.io.BufferedReader;
import java.io.FileReader;
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * classe ContaPalavras - recebe como entrada um arquivo texto, identifica as
 * diferentes palavras e contabiliza as frequ�ncias.
 * 
 * uso: java ContaPalavras arquivo_texto
 * 
 * @author Eduardo Correa
 * 
 */
public class ContaPalavras {

	public static void main(String[] args) throws Exception {

	//-------------------------------------------------------
	// (0) declara��o/inicializa��o de vari�veis
	//-------------------------------------------------------
		
	String curLine; //recebe cada linha lida do arquivo texto
		
	Map<String,Integer> mapPalavras; //mapa: Palavra -> Frequencia  
						//usado para contabilizar as 
						//frequencias das palavras
		
	mapPalavras = new HashMap<String,Integer>();
		
		
	//-------------------------------------------------------
	// (1) abre o arquivo texto
	//-------------------------------------------------------
		
	//(1.1) testa se nome do arq. texto foi passado na chamada do programa
        if (args.length != 1) {
            System.err.println("ERRO: eh preciso especificar o nome do arquivo");
            System.err.println("Uso: java ContaPalavras arquivo_texto");
            System.exit(1);
        }

	//(1.2) abre o arquivo
        FileReader txtFile = new FileReader(args[0]);
        BufferedReader txtBuffer = new BufferedReader(txtFile);

	//-------------------------------------------------------
	// (2) loop que processa cada linha do arquivo texto
	//-------------------------------------------------------

        //(2.1) pega a primeira linha do arquivo
        curLine = txtBuffer.readLine();
      
        
        while (curLine != null) {
        	
    		//-------------------------------------------------------
        	//(2.2) quebra a linha em tokens (palavras) utilizando 
        	//      express�o regular. 
        	//
        	//      O programa usa uma forma simplificada p/ obter os tokens.
        	//      S�o considerados tokens:
        	//      - uma sequ�ncia de 1 a n n�meros
        	//      - uma sequ�ncia de 1 a n letras
    		//-------------------------------------------------------

        	//primeiro converte tudo para min�sculo
        	String minusculo = curLine.toLowerCase();
        	
        	//depois aplica a express�o regular
        	Pattern p = Pattern.compile("(\\d+)|([a-z����������]+)");
        	Matcher m = p.matcher(minusculo);

        	
    		//-------------------------------------------------------
        	//(2.3) IMPORTANTE: neste loop pegamos cada palavra 
        	//                  e atualizamos o mapa de frequ�ncias
    		//-------------------------------------------------------
        	
        	while(m.find())
        	{
        	  String token = m.group(); //pega um token   
        	  Integer freq = mapPalavras.get(token); //verifica se esse 
        	  					     //token j� est� no mapa	
				
				if (freq != null) { //se palavra existe, atualiza a frequencia
					mapPalavras.put(token, freq+1);
				}
				else { // se palavra n�o existe, insiro com um novo id e freq=1.
					mapPalavras.put(token,1);
				}
        	}
        	
		//pega a pr�xima linha do arquivo
        	curLine = txtBuffer.readLine();
        }
        
        txtBuffer.close();

	//-------------------------------------------------------
	// (3) imprime o mapa de frequencias
	//-------------------------------------------------------
	 for (Map.Entry<String, Integer> entry : mapPalavras.entrySet()) {
		System.out.println(entry.getKey() + "\tfreq=" + entry.getValue());
	 }

   }

}

Para testar a execu��o do programa, utilizaremos o arquivo �teste.txt� que cont�m o texto de uma not�cia publicada em um jornal. O conte�do do arquivo � apresentado na Figura 2.

Figura 2: Arquivo teste.txt

A execu��o do programa sobre esse arquivo texto produzir� o resultado mostrado na Figura 3:

Figura 3: Resultado do Processamento

No programa apresentado, as se��es 2.2 e 2.3 cont�m os trechos de c�digo mais importantes. Por isso vamos agora comentar um pouco essas se��es. Na se��o 2.2, o primeiro passo � converter a linha lida do arquivo para min�sculo. Ap�s isso ser feito, utilizamos a classe �Pattern� para definir a express�o regular que ser� utilizada para �quebrar� uma linha lida do arquivo em um conjunto de palavras (ou �tokens� - termo comumente utilizado na minera��o de texto). A classe �Matcher� � respons�vel por aplicar (ou executar) essa express�o regular.

O programa da Listagem 1 utiliza a seguinte express�o regular:

(\\d+)|([a-z��]+)")

Esta express�o indica que consideraremos uma palavra qualquer sequ�ncia de n�meros (ex: 1970, 2013, 33, 0, etc.) ou qualquer sequ�ncia de letras (ex: �jogo�, �a�, �dribles�, etc.). N�o � um m�todo perfeito, pois realiza separa��es erradas em alguns casos. Por exemplo: no caso da frase �plataforma P20�, a express�o regular faz a separa��o em tr�s tokens, �plataforma�, �p� e �20� ao inv�s do correto, que seria apenas dois (�plataforma� e �p20�). Outro problema ocorre em palavras que possuem h�fen, como �couve-flor�, que seria quebrada em 2 tokens (�couve� e �flor�). De qualquer forma, no geral, a express�o regular apresenta bom desempenho e a vantagem de ser simples.

Seguindo com a explica��o do programa, na se��o 2.3 temos um loop que percorre cada token (palavra) identificado em uma linha do arquivo como o objetivo de criar o mapa de palavras. Nosso mapa ter� a estrutura similar a mostrada no esquema da Figura 4. As chaves s�o as palavras e os valores a frequ�ncia de cada uma delas (� um mapa String -> Integer).

Figura 4: Estrutura do objeto mapPalavras

No loop implementado na se��o 2.3, realizamos o seguinte processamento para cada token. Primeiro verificamos se o mesmo j� foi inserido no HashMap (objeto �mapPalavras�) com o uso do m�todo �get�. Depois basta usar o m�todo �put� para atualizar o mapa. O m�todo �put� tem a vantagem de ser bastante vers�til, pois podemos utiliz�-lo tanto para inserir um novo elemento no mapa como para atualizar um elemento j� existente. Observe que, em nosso programa, quando uma palavra ainda n�o est� no mapa, utilizamos o m�todo �put� para inseri-la com frequ�ncia = 1. Quando a palavra j� est� armazenada no mapa, utilizamos igualmente o m�todo �put�, mas desta vez para incrementar a frequ�ncia da mesma.

Finalizando o programa, na se��o 3 percorremos todos os elementos do nosso mapa, imprimindo as chaves (palavra) e os valores (frequ�ncia).

At� a pr�xima!