Artigo Java Magazine 04 - Express�es Regulares no J2SE 1.4

Esse artigo faz parte da revista Java Magazine edi��o 04. Clique aqui para ler todos os artigos desta edi��o

Clique aqui para ler essa revista em PDF.

Express�es Regulares no J2SE 1.4

Processamento de texto ao estilo Perl

As nova API java.util.regex incorpora recursos cl�ssicos de manipula��o de express�es regulares com simplicidade e desempenho

Express�es regulares s�o comumente utilizadas para procurar ou alterar fragmentos de texto em documentos de conte�do textual. Tais fragmentos (sequ�ncias de caracteres) s�o identificados atrav�s de regras de forma��o, ou padr�es, que comp�em as express�es regulares.

As express�es regulares s�o disponibilizadas ao usu�rio atrav�s de ferramentas de linha de comando, tais como grep, sed, ou awk, t�picas em ambientes Unix, ou atrav�s de linguagens de programa��o, tais como Perl, C, Python ou Java. Destas linguagens, apenas Perl suporta express�es regulares de forma integrada. As demais, as suportam atrav�s de APIs (bibliotecas de fun��es/classes).

Na pr�tica, a sintaxe das express�es regulares varia de uma ferramenta ou linguagem para outra, o que reflete a inexist�ncia de um padr�o na ind�stria. Apesar disso, uma sintaxe em particular tornou-se dominante: a da linguagem Perl, na vers�o 5. Esta sintaxe foi adotada, na maior parte, por v�rias linguagens e APIs modernas, incluindo a nova API padr�o do J2SE 1.4.

APIs

O pacote java.util.regex, novo no J2SE 1.4, define a API padr�o para express�es regulares. Al�m da adi��o deste pacote, a classe String ganhou m�todos adicionais que aceitam como argumento uma express�o regular (por exemplo, o m�todo split). Estes m�todos, contudo, s�o apenas para conveni�ncia. Tudo o que eles fazem pode tamb�m ser feito atrav�s das classes espec�ficas para express�es regulares, definidas naquele pacote.

Existem tamb�m outras APIs dispon�veis para a plataforma Java, tais como as do projeto Jakarta da organiza��o Apache (veja links). A API do J2SE 1.4 � considerada uma das melhores, tanto em capacidade quanto em desempenho. Assim sendo, neste artigo nos limitamos a esta API, e � sua sintaxe de express�es regulares. O c�digo de exemplo no artigo foi testado com o J2SDK 1.4.1, da Sun.

Antes do J2SE 1.4, as classes java.util.StringTokenizer e java.io.StreamTokenizer eram o que havia de melhor quando se precisava ler e interpretar texto (salvo APIs fora do padr�o J2SE). A nova API para express�es regulares � uma alternativa mais poderosa, capaz de simplificar a resolu��o dos mesmos problemas, bem como outros significativamente mais complexos.

Aplica��es

Express�es regulares v�m sendo utilizadas h� d�cadas. Seus usos v�o dos mais b�sicos (como no comando DOS �dir *.txt�), aos mais avan�ados (por exemplo, em uma ferramenta que procura poss�veis erros de digita��o num documento, tais como palavras duplicadas). Em geral, express�es regulares constituem uma linguagem especializada que permite resolver problemas no processamento de informa��es representadas em forma textual. Alguns problemas envolvem documentos narrativos, como no caso das palavras duplicadas; outros envolvem dados estruturados, como no exemplo que veremos a seguir.

Nota: � interessante observar que tecnologias XML, em particular XPath, tornam geralmente desnecess�rio o uso de express�es regulares no processamento de documentos XML. Por�m, a necessidade de processar documentos textuais em formatos n�o-XML � muito comum.

Sintaxe e sem�ntica

Sintaticamente, uma express�o regular � uma sequ�ncia de caracteres arbitr�rios. Certos caracteres e combina��es de caracteres t�m significado especial. Semanticamente, cada express�o regular representa um conjunto de poss�veis fragmentos de texto. Por exemplo, uma palavra ou n�mero, uma sequ�ncia de caracteres com um certo prefixo ou sufixo, uma palavra seguida de um n�mero ou de outra palavra, um certo caractere no final da linha, e assim por diante.

Vejamos alguns exemplos concretos (aqui e no resto do artigo, escrevemos uma express�o regular como uma sequ�ncia de caracteres entre aspas duplas):

� �carro� � representa uma �nica palavra, �carro�;

� �[0-9]+� � representa um n�mero inteiro composto de um ou mais d�gitos de 0 a 9;

� �A_?\d+� � representa um fragmento de texto que come�a com a letra �A�, seguido opcionalmente pelo caractere sublinhado �_�, e terminando com um n�mero inteiro.

No primeiro exemplo, somente caracteres literais foram utilizados. Nos demais, al�m de caracteres literais, foram usados alguns caracteres especiais, ou meta-caracteres. Mais adiante descreveremos o significado destes meta-caracteres.

Dado um texto de entrada e uma express�o regular ER, uma ferramenta ou linguagem de programa��o com suporte a express�es regulares � capaz de procurar por correspond�ncias (matches) � express�o ER dentro do texto. Uma correspond�ncia, quando encontrada, inclui a sequ�ncia de caracteres no texto de entrada que foi reconhecida pela express�o regular, e as posi��es do primeiro e �ltimo caracteres reconhecidos.

Uma vez encontrada uma correspond�ncia, o programa que est� processando o texto de entrada normalmente realiza uma a��o em resposta, que depende do prop�sito do programa. Por exemplo, o programa poderia simplesmente imprimir as linhas nas quais uma correspond�ncia foi encontrada, ou poderia registrar a informa��o obtida da correspond�ncia num banco de dados, e assim por diante. Em geral, � tamb�m poss�vel substituir o fragmento reconhecido, no texto de entrada, por algum outro fragmento de texto qualquer.

Exemplo pr�tico

Como um exemplo n�o trivial, vamos apresentar uma classe que l� um arquivo texto contendo dados estruturados numa tabela (com linhas e colunas), e produz um documento XML com os mesmos dados. (Numa aplica��o real, isto provavelmente seria um passo intermedi�rio no processamento do arquivo original. O resultado final poderia ser, digamos, um script SQL com comandos insert, ou uma p�gina HTML).

Os dados em cada linha do arquivo incluem c�digos alfa-num�ricos, n�meros inteiros e reais, e intervalos num�ricos abertos e fechados. A Listagem 1 � um desses arquivos texto, contendo dados para cada caso. Para este arquivo, a classe TextoParaXml na Listagem 3, ir� produzir o texto XML mostrado na Listagem 2.

No restante do artigo, explicamos os recursos da API para express�es regulares de J2SE 1.4 que s�o utilizados neste exemplo (Listagem 3).

Caracteres especiais

Uma express�o regular, na sintaxe suportada por java.util.regex, pode incluir como caracteres literais todos os definidos pelo padr�o Unicode. (O padr�o ASCII define os n�meros associados a um conjunto de 128 caracteres apropriados � lingua inglesa; Unicode faz o mesmo para estes e milhares de outros caracteres, cobrindo praticamente todas as l�nguas existentes.)

Nesta API, os seguintes caracteres s�o especiais (meta-caracteres): ()[]{}\|.?*+^$

Quando o fragmento procurado no texto de entrada pode incluir um destes meta-caracteres, � preciso usar o meta-caractere �\� (barra reversa) na express�o regular, para remover o significado especial. Por exemplo, para encontrar correspond�ncias contendo par�nteses, usa-se �$� e �$� na express�o regular. Isto, entretanto, conflita com o significado especial da barra reversa em Strings literais em c�digo Java, como em �\n�, ou no string �ab\�cd\\ef�, que cont�m uma aspa dupla e uma barra reversa. Assim, quando uma express�o regular aparece numa string literal em c�digo Java, � preciso preceder cada barra reversa por outra barra reversa. Por exemplo, a express�o �$[xyz]$� seria escrita como �\$[xyz]\$� em c�digo Java.

Elementos da API

O pacote java.util.regex possui apenas tr�s classes, sendo uma delas uma classe de exce��o. A classe Pattern representa um padr�o (express�o regular) �compilado�, que � armazenado internamente numa estrutura de dados otimizada. Inst�ncias desta classe s�o imut�veis. Um objeto da classe Matcher tem a habilidade de encontrar correspond�ncias num texto de entrada para uma dada inst�ncia de Pattern. O estado de um Matcher reflete o resultado da �ltima opera��o de busca por uma correspond�ncia no texto de entrada. ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Rog�rio Em 2008

Artigo Java Magazine 04 - Express�es Regulares no J2SE 1.4

Confira nesta edi��o de Java Magazine uma entrevista Bill Day Java speech, Interface ricas com flash

Confira outros conte�dos: