Artigo Java Magazine 04 - Expressões Regulares no J2SE 1.4

Esse artigo faz parte da revista Java Magazine edi��o 04. Clique aqui para ler todos os artigos desta edi��o

Clique aqui para ler essa revista em PDF.

Express�es Regulares no J2SE 1.4

Processamento de texto ao estilo Perl

As nova API java.util.regex incorpora recursos cl�ssicos de manipula��o de express�es regulares com simplicidade e desempenho

Express�es regulares s�o comumente utilizadas para procurar ou alterar fragmentos de texto em documentos de conte�do textual. Tais fragmentos (sequ�ncias de caracteres) s�o identificados atrav�s de regras de forma��o, ou padr�es, que comp�em as express�es regulares.

As express�es regulares s�o disponibilizadas ao usu�rio atrav�s de ferramentas de linha de comando, tais como grep, sed, ou awk, t�picas em ambientes Unix, ou atrav�s de linguagens de programa��o, tais como Perl, C, Python ou Java. Destas linguagens, apenas Perl suporta express�es regulares de forma integrada. As demais, as suportam atrav�s de APIs (bibliotecas de fun��es/classes).

Na pr�tica, a sintaxe das express�es regulares varia de uma ferramenta ou linguagem para outra, o que reflete a inexist�ncia de um padr�o na ind�stria. Apesar disso, uma sintaxe em particular tornou-se dominante: a da linguagem Perl, na vers�o 5. Esta sintaxe foi adotada, na maior parte, por v�rias linguagens e APIs modernas, incluindo a nova API padr�o do J2SE 1.4.

APIs

O pacote java.util.regex, novo no J2SE 1.4, define a API padr�o para express�es regulares. Al�m da adi��o deste pacote, a classe String ganhou m�todos adicionais que aceitam como argumento uma express�o regular (por exemplo, o m�todo split). Estes m�todos, contudo, s�o apenas para conveni�ncia. Tudo o que eles fazem pode tamb�m ser feito atrav�s das classes espec�ficas para express�es regulares, definidas naquele pacote.

Existem tamb�m outras APIs dispon�veis para a plataforma Java, tais como as do projeto Jakarta da organiza��o Apache (veja links). A API do J2SE 1.4 � considerada uma das melhores, tanto em capacidade quanto em desempenho. Assim sendo, neste artigo nos limitamos a esta API, e � sua sintaxe de express�es regulares. O c�digo de exemplo no artigo foi testado com o J2SDK 1.4.1, da Sun.

Antes do J2SE 1.4, as classes java.util.StringTokenizer e java.io.StreamTokenizer eram o que havia de melhor quando se precisava ler e interpretar texto (salvo APIs fora do padr�o J2SE). A nova API para express�es regulares � uma alternativa mais poderosa, capaz de simplificar a resolu��o dos mesmos problemas, bem como outros significativamente mais complexos.

Aplica��es

Express�es regulares v�m sendo utilizadas h� d�cadas. Seus usos v�o dos mais b�sicos (como no comando DOS �dir *.txt�), aos mais avan�ados (por exemplo, em uma ferramenta que procura poss�veis erros de digita��o num documento, tais como palavras duplicadas). Em geral, express�es regulares constituem uma linguagem especializada que permite resolver problemas no processamento de informa��es representadas em forma textual. Alguns problemas envolvem documentos narrativos, como no caso das palavras duplicadas; outros envolvem dados estruturados, como no exemplo que veremos a seguir.

Nota: � interessante observar que tecnologias XML, em particular XPath, tornam geralmente desnecess�rio o uso de express�es regulares no processamento de documentos XML. Por�m, a necessidade de processar documentos textuais em formatos n�o-XML � muito comum.

Sintaxe e sem�ntica

Sintaticamente, uma express�o regular � uma sequ�ncia de caracteres arbitr�rios. Certos caracteres e combina��es de caracteres t�m significado especial. Semanticamente, cada express�o regular representa um conjunto de poss�veis fragmentos de texto. Por exemplo, uma palavra ou n�mero, uma sequ�ncia de caracteres com um certo prefixo ou sufixo, uma palavra seguida de um n�mero ou de outra palavra, um certo caractere no final da linha, e assim por diante.

Vejamos alguns exemplos concretos (aqui e no resto do artigo, escrevemos uma express�o regular como uma sequ�ncia de caracteres entre aspas duplas):

� �carro� � representa uma �nica palavra, �carro�;

� �[0-9]+� � representa um n�mero inteiro composto de um ou mais d�gitos de 0 a 9;

� �A_?\d+� � representa um fragmento de texto que come�a com a letra �A�, seguido opcionalmente pelo caractere sublinhado �_�, e terminando com um n�mero inteiro.

No primeiro exemplo, somente caracteres literais foram utilizados. Nos demais, al�m de caracteres literais, foram usados alguns caracteres especiais, ou meta-caracteres. Mais adiante descreveremos o significado destes meta-caracteres.

Dado um texto de entrada e uma express�o regular ER, uma ferramenta ou linguagem de programa��o com suporte a express�es regulares � capaz de procurar por correspond�ncias (matches) � express�o ER dentro do texto. Uma correspond�ncia, quando encontrada, inclui a sequ�ncia de caracteres no texto de entrada que foi reconhecida pela express�o regular, e as posi��es do primeiro e �ltimo caracteres reconhecidos.

Uma vez encontrada uma correspond�ncia, o programa que est� processando o texto de entrada normalmente realiza uma a��o em resposta, que depende do prop�sito do programa. Por exemplo, o programa poderia simplesmente imprimir as linhas nas quais uma correspond�ncia foi encontrada, ou poderia registrar a informa��o obtida da correspond�ncia num banco de dados, e assim por diante. Em geral, � tamb�m poss�vel substituir o fragmento reconhecido, no texto de entrada, por algum outro fragmento de texto qualquer.

Exemplo pr�tico

Como um exemplo n�o trivial, vamos apresentar uma classe que l� um arquivo texto contendo dados estruturados numa tabela (com linhas e colunas), e produz um documento XML com os mesmos dados. (Numa aplica��o real, isto provavelmente seria um passo intermedi�rio no processamento do arquivo original. O resultado final poderia ser, digamos, um script SQL com comandos insert, ou uma p�gina HTML).

Os dados em cada linha do arquivo incluem c�digos alfa-num�ricos, n�meros inteiros e reais, e intervalos num�ricos abertos e fechados. A Listagem 1 � um desses arquivos texto, contendo dados para cada caso. Para este arquivo, a classe TextoParaXml na Listagem 3, ir� produzir o texto XML mostrado na Listagem 2.

No restante do artigo, explicamos os recursos da API para express�es regulares de J2SE 1.4 que s�o utilizados neste exemplo (Listagem 3).

Caracteres especiais

Uma express�o regular, na sintaxe suportada por java.util.regex, pode incluir como caracteres literais todos os definidos pelo padr�o Unicode. (O padr�o ASCII define os n�meros associados a um conjunto de 128 caracteres apropriados � lingua inglesa; Unicode faz o mesmo para estes e milhares de outros caracteres, cobrindo praticamente todas as l�nguas existentes.)

Nesta API, os seguintes caracteres s�o especiais (meta-caracteres): ()[]{}\|.?*+^$

Quando o fragmento procurado no texto de entrada pode incluir um destes meta-caracteres, � preciso usar o meta-caractere �\� (barra reversa) na express�o regular, para remover o significado especial. Por exemplo, para encontrar correspond�ncias contendo par�nteses, usa-se �$� e �$� na express�o regular. Isto, entretanto, conflita com o significado especial da barra reversa em Strings literais em c�digo Java, como em �\n�, ou no string �ab\�cd\\ef�, que cont�m uma aspa dupla e uma barra reversa. Assim, quando uma express�o regular aparece numa string literal em c�digo Java, � preciso preceder cada barra reversa por outra barra reversa. Por exemplo, a express�o �$[xyz]$� seria escrita como �\$[xyz]\$� em c�digo Java.

Elementos da API

O pacote java.util.regex possui apenas tr�s classes, sendo uma delas uma classe de exce��o. A classe Pattern representa um padr�o (express�o regular) �compilado�, que � armazenado internamente numa estrutura de dados otimizada. Inst�ncias desta classe s�o imut�veis. Um objeto da classe Matcher tem a habilidade de encontrar correspond�ncias num texto de entrada para uma dada inst�ncia de Pattern. O estado de um Matcher reflete o resultado da �ltima opera��o de busca por uma correspond�ncia no texto de entrada. ...

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Rog�rio Em 2008

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Artigo Java Magazine 04 - Express�es Regulares no J2SE 1.4

Confira nesta edi��o de Java Magazine uma entrevista Bill Day Java speech, Interface ricas com flash