Artigo Java Magazine 55 - Express�es Regulares em Java

Esse artigo faz parte da revista Java Magazine edi��o 55. Clique aqui para ler todos os artigos desta edi��o

-FAMILY: Verdana">Express�es Regulares em Java

Utilize os recursos da java.util.regex para processar texto com facilidade

Explore as APIs do Java para busca e substitui��o de texto, e veja como utiliz�-las de forma eficiente

A linguagem Java n�o � famosa pelas suas facilidades de processamento de texto, pois o Java n�o foi criado originalmente para gerar p�ginas web, fazer parsing, ou processamento de documentos. No entanto, o Java hoje � utilizado em praticamente todos os dom�nios de aplica��o, e j� h� um bom tempo possui uma completa gama de recursos para tratamento de texto.

Alguns destes recursos, ali�s, s�o de estirpe do Java 1.0, e talvez falhemos em apreci�-los porque sempre estiveram dispon�veis. Por exemplo, suporte ao padr�o Unicode. Em linguagens e APIs que usei antes de Java, o suporte para Unicode n�o era default, e sua programa��o era complicada pela duplica��o de APIs (vers�es ASCII e Unicode das mesmas fun��es) e necessidades constantes de fazer convers�es entre estes formatos. No Java nada disso existe: qualquer texto � String ou char � � sempre Unicode. S� d� para perceber como o Java � simples ao compar�-lo com outras linguagens, inclusive algumas que s�o famosas pelo suporte a processamento de texto.

Neste artigo, examinaremos uma API simples, por�m poderosa e essencial: a java.util.regex.

Express�es regulares

As express�es regulares surgiram da teoria de linguagens formais, como uma alternativa simples e pr�tica para processamento de trechos de texto curtos e pouco complexos. Tecnicamente, toda express�o regular (regex) � uma gram�tica, que define uma linguagem.

Uma linguagem, se voc� nunca se perguntou, tem a seguinte defini��o: � o conjunto � possivelmente infinito � de todos os inputs que s�o compat�veis com certa gram�tica. Por exemplo, a �linguagem Java� � o conjunto de todos os programas-fonte Java v�lidos. Ao rodarmos um compilador como o javac, este determina se o conte�do de um arquivo fonte (*.java) pertence a este conjunto.

H� uma sofisticada teoria de gram�ticas formais, parte da disciplina de Compiladores que faz parte de curr�culos de 3�. grau em computa��o, que permite criar parsers, compiladores e outras ferramentas que processam fontes de linguagens como Java, entre outros inputs altamente estruturados. Mas essa teoria � pesada e envolve ferramentas tamb�m complexas (no Java, representadas pelo JavaCC e ANTLR). N�o � algo adequado para necessidades simples, muitas vezes ad-hoc, de parsing, como por exemplo: como determinar se uma string, como �07/12/2008�, cont�m uma data? Com express�es regulares (ou regex), isso � f�cil: �\d\d/\d\d/\d\d\d\d�.

Uma regex � composta de meta-caracteres e caracteres comuns. No exemplo, �\d� � um meta-caractere que significa �d�gito�. Outra forma de especificar um d�gito seria �[0-9]�, nesse caso usando a sintaxe de defini��o de classe de caracteres � mas como esta classe �d�gito� � de uso muito comum, � abreviada pelo meta-caractere �\d�. A regex de exemplo significa: algum d�gito, seguido de algum outro d�gito, seguido de um �/�, etc. � comum haver v�rias formas de escrever a mesma regex: para dar outro exemplo, ao inv�s de �\d\d� poder�amos usar �\d{2}�. Neste artigo n�o vamos focar nas regex em si; veja o quadro �A linguagem de regex do Java�.

A linguagem de regex do Java

Uma descri��o completa da sintaxe de regex do Java seria bastante longa, e � um assunto j� conhecido de muitos leitores, por ser um recurso comum de v�rias linguagens e ferramentas (como grep, editores de texto, e at� bancos de dados). A refer�ncia detalhada desta sintaxe est� dispon�vel no javadoc da classe java.util.regex.Pattern.

A maioria das linguagens de regex derivam do padr�o POSIX 1003.2, o qual define duas formas de regex. A forma �obsoleta� ou �b�sica� � usada somente por poucos programas Unix antiquados, como o editor ed. A forma �estendida� ou �moderna� � bem mais popular, sendo amplamente utilizada por ferramentas de sistemas Unix / Linux e tamb�m muitas linguagens e aplica��es.

Outro padr�o importante � o da linguagem Perl, cuja sintaxe de regex � baseada no padr�o POSIX, mas recebeu diversas melhorias, sendo mais flex�vel e poderosa, e por isso muito popular. Esta popularidade gerou o projeto PCRE (Perl Compatible Regular Expressions), uma biblioteca nativa que implementa um avaliador de regex extremamente compat�vel com o Perl. O PCRE � utilizado por outros programas, como Apache httpd, KDE, PHP, Safari, e muitos outros.

Quando a API java.util.regex ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Por Osvaldo Em 2008

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Oferta ativa

ATÉ
50 % OFF

Aprenda a programar de verdade
com o método que já formou +100 mil alunos.

Garantir desconto

Compartilhe esse conte�do com um amigo!
Fa�a login para ganhar recompensas.
Copie o link e envie para seus amigos
Ou

Artigo Java Magazine 55 - Express�es Regulares em Java

Utilize os recursos da java.util.regex para processar texto com facilidade. Explore as APIs do Java para busca e substitui��o de texto, e veja como utiliz�-las de forma eficiente.

Confira outros conte�dos: