Expressões regulares em PHP

A OWASP Foundation - Open Web Application Security Project - � uma funda��o sem fins lucrativos focada na seguran�a de aplica��es. Ela possui um projeto, de nome OWASP, dedicado � procura e resolu��o de problemas que levam � constru��o de softwares inseguros. Todo material disponibilizado pela institui��o - artigos, metodologias, trechos de c�digo, documenta��o, ferramentas, entre outros - pode ser acessado gratuitamente e possui licen�a open-source.

Esta funda��o � reconhecida a n�vel mundial e tem como membros empresas como Amazon, Microsoft, Oracle, HP e Adobe. Tamb�m possui faculdades vinculadas como a UCLA, Berkeley e a Universidade do Texas.

A funda��o conta tamb�m com uma s�rie de princ�pios que devem ser tomados a fim de cumprir o objetivo estabelecido por ela. Um destes princ�pios � "Don't trust user input", que poderia ser traduzido para "N�o confie nos dados enviados pelo usu�rio".

Este princ�pio � bem s�lido e difundido, embora alguns aplicativos ou n�o o implementam ou n�o d�o o devido valor. Dizemos isso por que podemos observar muitos casos por a� de falhas de seguran�a devido a falta de valida��o de dados. Para confirmar, basta verificar os 10 riscos eleitos pelo projeto OWASP Top 10 (ver se��o links), que estabelece, ao longo de um ano, as dez falhas de seguran�a que mais ocorreram.

Nas duas primeiras posi��es de falhas mais presentes em aplica��es, na vers�o de 2010, est�o "Injection" e "Cross-Site Scripting (XSS)". Estes dois tipos de falhas s�o exploradas, na maioria das vezes, justamente por neglig�ncia do princ�pio que foi citado acima (�N�o confie nos dados enviados pelo usu�rio�).

Uma �tima forma de prevenir este tipo falha � utilizando express�es regulares para verificar a consist�ncia dos dados. Por consist�ncia leia-se, o formato que um determinado dado deve ter. Por exemplo: campos de datas n�o deveriam permitir aspas ou espa�os em branco.

Para este tipo de a��o - a verifica��o da integridade dos dados e seu formato -, express�es regulares s�o muito �teis e f�ceis de serem implementadas. Neste contexto, veremos a partir de agora neste artigo uma pequena introdu��o sobre o assunto, junto de alguns exemplos. Ao final ser�o sugeridas ferramentas para teste e an�lise das express�es.

Arquitetura da solu��o

As express�es regulares s�o geralmente utilizadas para valida��o de dados, buscas e substitui��es de strings, pois elas prov�m uma forma simples de casar padr�es de caracteres, sejam os padr�es quais forem.

De fato, as express�es regulares aparecem frequentemente em quatro contextos diferentes: casamento de padr�es de texto, busca, substitui��o e quebra ou separa��o de texto.

Esta facilidade est� presente na maioria das linguagens de programa��o como PHP, Perl, Ruby, Java, Tcl, Python, JavaScript, embora algumas das linguagens n�o tenham suporte nativo e necessitem de bibliotecas, como � o caso da biblioteca "re" do Python. Elas tamb�m est�o presentes em programas comuns em sistemas UNIX como o "sed" e o "grep".

Usu�rios de UNIX podem ter notado a diferen�a entre as express�es regulares utilizadas pelas ferramentas GNU, tais como o sed, grep, vi, ed e awk para as express�es regulares da linguagem Perl, por exemplo. O fato � que existem v�rios motores e bibliotecas para interpreta��o das express�es regulares, e isso traz diferen�as ao definirmos express�es regulares.

A implementa��o POSIX b�sica � a mais tradicional e segue alguns padr�es. Ela � a mais utilizada nas ferramentas do UNIX. Nesta implementa��o, os metacaracteres - como par�nteses, chaves, sinal de soma e interroga��o - devem ser �escapados� para que sejam interpretados como metacaracteres de verdade - ou seja, n�o sejam interpretados literalmente.

Por outro lado, na implementa��o POSIX estendida � necess�rio o escape para que seja interpretado o significado literal do metacaractere, ou seja, para que asteriscos casem com asteriscos do texto. Isto se deve a quest�es de compatibilidade ao Simple Regular Expression, que precedeu o POSIX.

Al�m das implementa��es POSIX, h� a implementa��o que se tornou conhecida por PCRE, cuja sigla representa Perl Compatible Regular Expression. � uma implementa��o mais poderosa e completa que a POSIX, pois implementa facilidades como padr�es recursivos e grupos com captura por nome.

Os metacaracteres

Para que os padr�es possam ser casados dentro do texto, s�o utilizados metacaracteres. Na Tabela 1 h� uma lista com alguns dos metacaracteres mais utilizados.

Regex	Casa com	Descri��o
/.at/	Pat, %at, 2at	Significa qualquer caractere, com exce��o da quebra de linha, que s� ser� casado caso o modificador �s� esteja na express�o.
/[ch]at/	hat ou cat, mas n�o casaria chat, pois apenas � considerado um caractere da lista entre �[]�	Casar� com qualquer caractere dentro da lista (colchetes).
/[^P]/	5at, %at, cat, mas nunca Pat	Casar� com qualquer caractere que n�o estiver dentro da lista (colchetes).
/c?at/	cat ou at, mas nunca hat	Casar� com a presen�a ou a aus�ncia do caractere que antecede � interroga��o.
/c*at/	at, cat, ccat, cccat, ...	Casar� na ocorr�ncia de 0 at� infinitos caracteres que antecederem ao asterisco.
/c+at/	cat, ccat, cccat, mas nunca at	Casar� na ocorr�ncia de 1 at� infinitos caracteres que antecederem ao sinal de mais.
/c{1,3}at/	cat, ccat ou cccat, mas nunca ccccat	Casar� na ocorr�ncia de 1 at� 3 caracteres que antecederem �s chaves.
/^cate/	categoria, mas nunca abacate	Casar� quando a express�o seguinte ao circunflexo estiver imediatamente no in�cio da linha.
/cate$/	abacate, mas nunca categoria	Casar� quando a express�o anterior ao cifr�o estiver imediatamente ao fim da linha.
/a\|b\|c/	a, b, c, mas nunca ab ou bc	Casar� com um dos termos separados pelo ou.

Tabela 1: Metacaracteres PCRE.

Nas listas, metacaracteres entre colchetes, � poss�vel utilizar intervalos. Isso significa que /[0-9]/ representa /[0123456789]/, ou seja, representa um caractere que esteja no intervalo entre 0 e 9. O intervalo tamb�m pode abranger menos n�meros, como /[3-5]/, ou abranger m�ltiplos intervalos, como /[0-35-9]/. Neste �ltimo exemplo, somente o n�mero 4 n�o seria casado.

A mesma regra dos intervalos num�ricos pode ser aplicada para caracteres do alfabeto. Logo, /[a-z]/ representa uma letra min�scula do alfabeto. Para caracteres mai�sculos, se utiliza o intervalo /[A-Z]/. Vale lembrar que caracteres acentuados n�o est�o inclu�dos nestes intervalos. H� um outro intervalo, o /[�-��-�]/, que engloba os caracteres acentuados.

O famoso alfanum�rico poderia ser conhecido como /[0-9a-zA-Z�-��-�]+/, ou seja, algarismos ou letras repetidas ao longo de uma string. Ainda h� outras formas de expressar sequ�ncias, conforme pode ser observado na Tabela 2.

Regex	Equival�ncia	Descri��o
\d	[0-9]	Que esteja no intervalo de 0 a 9.
\D	[^0-9]	Que n�o esteja no intervalo de 0 a 9.
\s	[ \t\n\r\f\v]	Espa�os em branco.
\S	[^ \t\n\r\f\v]	O que n�o for caracteres em branco.
\w	[a-zA-Z0-9_]	Alfanum�ricos e underscore.
\W	[^a-zA-Z0-9_]	O que n�o for alfanum�rico e underscore.

Tabela 2: Outras formas de expressar sequ�ncias.

Todas as express�es regulares utilizadas em c�digo devem ter delimitadores. Estes delimitadores geralmente s�o representados por duas barras, uma no in�cio da express�o e outra no t�rmino, tendo algo como /(express�o)/ de resultado final. Al�m da express�o, � poss�vel atribuir flags modificadoras ao fim da regex. Por exemplo, /(express�o)/i torna a express�o case-insensitive, isto �, n�o diferencia mai�scula de min�sculas. Na Tabela 3 se encontra uma lista dos modificadores mais utilizados.

Regex	Casa com
/(express�o)/i	Case Insensitive. N�o diferencia mai�sculas de min�sculas.
/(express�o)/m	Os metacaracteres �^� e �$� ser�o in�cio e fim de linha, podendo o texto ter v�rias linhas.
/(express�o)/s	Adicionar a quebra de linha (\n) ao metacaractere "."
/(express�o)/x	Estendido. Permite utilizar coment�rios e espa�os na express�o regular, inclusive em mais de uma linha.
/(express�o)/U	Transforma a express�o em n�o guloso, ou seja, tenta casar o menor texto poss�vel.

Tabela 3: Tabela de modificadores.

Para entendermos melhor o funcionamento do modificador que remove a flag de �guloso�, a Listagem 1 e a Listagem 2 mostram a diferen�a entre ambos os casamentos, com e sem flag gulosa, respectivamente.

Observa-se que de acordo com o exemplo da Listagem 1, sendo uma express�o n�o-gulosa (contem o /U ao final da segunda linha), foram casadas todas as tags: div, p e div novamente. Perceba isso nas sa�das output 0, output 1 e output 2. J� na Listagem 2 isto n�o aconteceu, pois como � uma express�o gulosa, o primeiro �

� que apareceu casou-se com o �ltimo �

� que apareceu no texto.

Este � justamente o motivo do nome desta flag ser �gulosa�: ela controla se deve parar na primeira vez em que casar um elemento ou se deve abranger o maior n�mero poss�vel de casamentos, �comendo� mais caracteres quanto forem poss�veis.

Listagem 1: Exemplo de express�o n�o-gulosa.

<?php
preg_match_all('/<([^>]+)>(.*)<\/\1>/U',
   "<div>aaa</div><p>bbb</p><div>ccc</div>", $matches);
var_dump($matches);
// Output:
// array(3) {
//   [0]=>
//   array(3) {
//     [0]=>
//     string(14) "<div>aaa</div>"
//     [1]=>
//     string(10) "<p>bbb</p>"
//     [2]=>
//     string(14) "<div>ccc</div>"
//   }
//   [1]=>
//   array(3) {
//     [0]=>
//     string(3) "div"
//     [1]=>
//     string(1) "p"
//     [2]=>
//     string(3) "div"
//   }
//   [2]=>
//   array(3) {
//     [0]=>
//     string(3) "aaa"
//     [1]=>
//     string(3) "bbb"
//     [2]=>
//     string(3) "ccc"
//   }
// }
?>

Listagem 2: Exemplo de express�o gulosa.

<?php
preg_match_all('/<([^>]+)>(.*)<\/\1>/',
   "<div>aaa</div><p>bbb</p><div>ccc</div>", $matches);
var_dump($matches);
// Output:
// array(3) {
//   [0]=>
//   array(1) {
//     [0]=>
//     string(38) "<div>aaa</div><p>bbb</p><div>ccc</div>"
//   }
//   [1]=>
//   array(1) {
//     [0]=>
//     string(3) "div"
//   }
//   [2]=>
//   array(1) {
//     [0]=>
//     string(27) "aaa</div><p>bbb</p><div>ccc"
//   }
// }
?>

Validando dados

Com os metacaracteres discutidos anteriormente neste artigo, j� � poss�vel validar campos como o de nome completo. Dado que um nome � composto por letras e espa�os, ent�o uma simples express�o regular, como a ^[a-zA-Z�-��-� ]+$ resolveria o problema.

Outro exemplo famoso � o de validar um CPF. Sabemos que o padr�o do CPF � composto por tr�s algarismos, em seguida vem um ponto, mais tr�s algarismos, outro ponto, tr�s algarismos, um h�fen e finalizado com dois algarismos.

O padr�o seria ent�o /^[0-9][0-9][0-9]\.[0-9][0-9][0-9]\.[0-9][0-9][0-9]-[0-9][0-9]$/. � importante que seja notado o escape no caractere de ponto final. Isto por que � necess�rio que no texto a ser casado, ele seja mesmo um ponto final. Caso n�o seja escapado, qualquer caractere poderia ser colocado ali, perdendo a consist�ncia.

Olhando assim, � poss�vel identificar outros padr�es, como os tr�s algarismos que se sucedem. A express�o poderia ser diminu�da para /^[0-9]{3}\.[0-9]{3}\.[0-9]{3}-[0-9]{2}$/. Assim, o {3} representa a repeti��o obrigat�ria de 3 vezes.

As express�es regulares tamb�m podem ser utilizadas, como definido anteriormente, para substitui��o. Sendo assim, elas s�o uma importante fonte para limpar e tratar textos. Por exemplo: em um banco de dados, � necess�rio que seja salvo o CPF sem pontos e h�fens. Ou seja, remover tudo que n�o for algarismo do CPF. Para esta funcionalidade, uma implementa��o em PHP � sugerida na Listagem 3.

Listagem 3: Campo CPF sendo limpo com express�o regular.

<?php
$cpf = preg_replace("/[^0-9]/", "", $cpf);
?>

Falando em substitui��es, n�o poderia ficar de fora outro recurso muito importante: o grupo. Um grupo nada mais � que uma express�o regular envolta por par�nteses. A vantagem de se ter um grupo � que ele torna poss�vel isol�-lo do resto, tornando a express�o mais abrangente.

Exemplificando: /(abc)|(cde)/ casaria com �abc� ou �cde� mas nunca �abcde� ou �abccde�, isto �, casar� com textos que contenham o valor dentro dos par�nteses.

Um segundo exemplo pr�tico da vantagem em utilizar grupos pode ser observado no exemplo a seguir. Para casar tanto "Sexo Masculino" quanto "Sexo Feminino", caso n�o houvesse grupos, seria necess�rio uma express�o regular como /Sexo Masculino|Sexo Feminino/. Pois, /Sexo Masculino|Feminino/ casaria apenas com "Sexo Masculino" ou "Feminino". Como os grupos isolam os elementos a serem casados, ent�o /Sexo (Masculino|Feminino)/ resolveria o problema.

Al�m disso, ainda � poss�vel aninhar grupos. Assim, seria poss�vel incrementarmos nossa express�o regular para casar tanto "Sexo Masculino" quanto "Sexo Feminino" para /Sexo (Mascul|Femin)ino/.

Mais pontos positivos aos grupos podem ser conferidos uma vez que eles podem ter uma refer�ncia para eles mesmos, ou seja, ou seja, � poss�vel utilizar o valor casado neles como se fossem um metacaractere da express�o regular. A import�ncia desta caracter�stica pode ser observada quando precisamos criar express�es regulares que casem palavras que tenham duas ou mais s�labas iguais, por exemplo, "baba", "bebe", "didi", "tititi", "mimi".

Para este caso, o primeiro passo � estar ciente de que cada grupo ter� um identificador diferente. O primeiro a aparecer na express�o regular ser� o \1, o segundo o \2 e assim sucessivamente. Caso a express�o fique grande e contenha bastantes grupos, � poss�vel adicionar nomes aos grupos e referenci�-los por tal. Assim, a leitura e interpreta��o das regexes ficam mais naturais.

Para resolver o problema das s�labas iguais, a express�o mais simples � a /([a-z][a-z])\1+/, que casaria todas as palavras acima. Observa-se que o valor real de \1, � o valor casado dentro do grupo, e n�o sua express�o regular. Logo, "bibo" n�o seria casado, apenas "bibi", pois o grupo casaria com "bi" e \1 - com o valor de "bi" -, n�o casaria com "bo".

A fim de se reutilizar a express�o regular dentro do grupo, facilitando a compreens�o da regex, primeiro � necess�rio dar um nome ao grupo e depois referenci�-lo como mostra a Listagem 4.

Listagem 4: Reutilizando a express�o regular de um grupo.

/(?<par>[02468])(?<impar>[13579])(?&impar)(?&par)/

Esta express�o regular (Listagem 4) casar� com n�meros cujos primeiro e �ltimo algarismos sejam pares e os dois centrais sejam �mpares. Nota-se que n�o foi necess�ria a reescrita de quais caracteres s�o pares e quais s�o �mpares. Apenas foi reutilizada a mesma express�o do grupo citado entre (?& e ). Para melhor entendimento, a Tabela 4 ir� mostrar a diferen�a entre reutilizar um grupo e a de reutilizar sua express�o regular.

Grupos nomeados tamb�m podem ser referenciados, substituindo \1, \2 e seguintes, tornando muito mais leg�vel e intelig�vel express�es regulares longas e complexas. Utilizando a mesma id�ia do exemplo acima, na Listagem 5 � poss�vel ver uma express�o regular que utiliza a refer�ncia por nome de grupo.

Listagem 5: Reutilizando o valor de um grupo.

/(?<par>[02468])(?<impar>[13579])\k<impar>\k<par>/

Neste segundo exemplo, o primeiro algarismo deve ser exatamente igual ao �ltimo, assim como o segundo deve ser igual ao terceiro. Atrav�s da Tabela 4 ficar� mais f�cil notar a diferen�a entre os casamentos das duas express�es.

Valor de teste	Regex da Listagem 4	Regex da Listagem 5
110	Casa	Casa
101	N�o casa, pois o segundo 0 � par e o segundo 1 � �mpar.	N�o casa pois o segundo 0 � diferente de 1 e o segundo 1 � diferente de 0
2958	Casa	N�o casa, pois 5 � diferente de 9 e 2 � diferente de 8. Para casar o n�mero deveria ser 2992.
6324	N�o casa, pois 2 � par.	N�o casa, pois 2 � diferente de 3 e 6 � diferente de 4.

Tabela 4: Trabalhando com grupos.

Dando continuidade � nossa discuss�o sobre valida��o de dados utilizando express�es regulares, temos outros metacaracteres importantes: lookahead, lookbehind e o condicional. Para se entender melhor, ser� demonstrado atrav�s de exemplos que usam como texto o valor da vari�vel mostrada na Listagem 6.

Listagem 6: Vari�vel de entrada.

<?php
$input = "jQuery (JavaScript); Zend Framework (PHP); Django (Python); Rails (Ruby); CakePHP (PHP)";
?>

Para pegar os nomes dos frameworks, poderia ser rodado o c�digo descrito na Listagem 7.

Listagem 7: Casando os frameworks.

<?php
preg_match_all("/ ?([^(]+) \([^)]+\);?/", $input, $matches);
var_dump($matches);
// Output:
// array(2) {
//   [0]=>
//   array(5) {
//     [0]=>
//     string(20) "jQuery (JavaScript);"
//     [1]=>
//     string(22) " Zend Framework (PHP);"
//     [2]=>
//     string(17) " Django (Python);"
//     [3]=>
//     string(14) " Rails (Ruby);"
//     [4]=>
//     string(14) " CakePHP (PHP)"
//   }
//   [1]=>
//   array(5) {
//     [0]=>
//     string(6) "jQuery"
//     [1]=>
//     string(14) "Zend Framework"
//     [2]=>
//     string(6) "Django"
//     [3]=>
//     string(5) "Rails"
//     [4]=>
//     string(7) "CakePHP"
//   }
// }
?>

Veja que a lista dos frameworks se encontra no �ndice 1 do array $matches. Est� ali pois � o resultado do primeiro grupo, equivalendo ao \1. A linguagem do framework n�o entra nos resultados, pois ela n�o tem um grupo, afinal, os par�nteses est�o escapados - $ e $.

Aquela express�o regular poderia ser lida como: pode come�ar com um espa�o ou n�o e em seguida ter um grupo com uma cadeia de caracteres que n�o sejam "("; um espa�o; a� ent�o se abre um par�ntese e deve ter no m�nimo um caractere que n�o seja ")" com os par�nteses sendo fechados e um ponto e v�rgula opcional.

Este exemplo n�o utiliza lookahead. Mas caso a necessidade da aplica��o fosse de pegar somente os frameworks em uma determinada linguagem, ele poderia ser utilizado.

Lookahead, como o pr�prio nome j� diz, � uma maneira de verificar um determinado trecho de informa��o e ver se ele � ou n�o sucedido por algum outro trecho. Substituindo a express�o regular do trecho de c�digo na Listagem 7, a Listagem 8 apresenta somente os frameworks escritos em PHP.

Listagem 8: Somente frameworks em PHP.

<?php
preg_match_all("/ ?([^;]+)(?= \(PHP\));?/",$input,$matches);
var_dump($matches);
// Output:
// array(2) {
//   [0]=>
//   array(2) {
//     [0]=>
//     string(15) " Zend Framework"
//     [1]=>
//     string(8) " CakePHP"
//   }
//   [1]=>
//   array(2) {
//     [0]=>
//     string(14) "Zend Framework"
//     [1]=>
//     string(7) "CakePHP"
//   }
// }
?>

Observa-se que o lookahead (?= $PHP$) est� dizendo que o grupo que o antecede "([^;]+)" ser� casado se e somente se contiver um espa�o seguido de "(PHP)". Assim, � poss�vel filtrar os valores da lista utilizando express�es regulares.

Outra informa��o importante � a que a express�o que estiver dentro do lookahead n�o ser� mostrada no casamento. Removendo o lookahead fica mais f�cil de notar a diferen�a que ele faz, conforme mostra a Listagem 9.

Listagem 9: Exemplo sem Lookahead.

<?php
preg_match_all("/ ?([^;]+) \(PHP\);?/",$input,$matches);
var_dump($matches);
// Output:
// array(2) {
//   [0]=>
//   array(2) {
//     [0]=>
//     string(22) " Zend Framework (PHP);"
//     [1]=>
//     string(14) " CakePHP (PHP)"
//   }
//   [1]=>
//   array(2) {
//     [0]=>
//     string(14) "Zend Framework"
//     [1]=>
//     string(7) "CakePHP"
//   }
//}
?>

Agora, no �ndice 0, que representa o casamento, a linguagem do framework est� inclusa. Coisa que n�o acontecia com o lookahead (Listagem 8). Neste exemplo, o que importa � o �ndice 1, ent�o pode parecer uma coisa irrelevante, mas ao utilizar regex para substitui��o de texto o casamento � extremamente importante, pois podem alterar o resultado final.

Tamb�m � poss�vel utilizar o lookahead negado, ou seja, se aplicado no exemplo anterior, poderia se encontrar todos os frameworks que n�o s�o da linguagem PHP. A Listagem 10 traz este exemplo.

Listagem 10: Negando o lookahead.

<?php
preg_match_all("/ ?([^;]+) \((?!PHP)/",$input,$matches);
var_dump($matches);
// Output:
// array(2) {
//   [0]=>
//   array(4) {
//     [0]=>
//     string(8) "jQuery ("
//     [1]=>
//     string(9) " Django ("
//     [2]=>
//     string(8) " Rails ("
//   }
//   [1]=>
//   array(4) {
//     [0]=>
//     string(6) "jQuery"
//     [1]=>
//     string(6) "Django"
//     [2]=>
//     string(5) "Rails"
//   }
// }
?>

Nota-se que n�o h� necessidade para o fechamento dos par�nteses. "\((?!PHP" � o suficiente para dizer que deve ter um par�ntese e ser seguido por algo diferente de �PHP�.

J� o lookbehind funciona de forma parecida ao lookahead, por�m com a diferen�a de que ele casa quando o texto seguinte a ele � verdadeiro. Por exemplo, enquanto no lookahead /foo(?=bar)/, casaria foo com o texto foobar, no lookbehind /(?<=foo)bar/, casaria bar com o mesmo texto. Continuando a s�rie de exemplos dos frameworks do lookahead, agora somente as linguagens ser�o selecionadas (ver Listagem 11).

Listagem 11: Exemplo de Lookbehind.

<?php
preg_match_all("/ ?(?<=Django) \(([^)]+)\);?/",$input,$matches);
var_dump($matches);
// Output:
// array(2) {
//   [0]=>
//   array(1){
//     [0]=>
//     string(10) " (Python);"
//   }
//   [1]=>
//   array(1) {
//     [0]=>
//     string(6) "Python"
//   }
// }
?>

Desta forma � poss�vel pegar a linguagem de qualquer framework, casando apenas a linguagem sem o nome do framework, como se pode observar no �ndice 0 do array.

Mais uma vez o exemplo acaba sendo muito fraco para captura e valida��o de dados, mas para substitui��o � muito importante, como pode ser visto no c�digo da Listagem 12, que mostra as diferen�as nas substitui��es com e sem o lookbehind.

Listagem 12: Diferen�a na substitui��o com e sem lookbehind.

<?php
echo preg_replace("/Django \([^)]+\)/", "Django (Cobol)",
      $input);
// Output: �; Django (Cobol); �;
echo preg_replace("/(?<=Django )\([^)]+\)/", "(Cobol)", 
      $input);
// Output: �; Django (Cobol); �;
?>

Assim como � poss�vel negar o lookahead, � poss�vel negar o lookbehind. Portanto, � poss�vel selecionar todas as linguagens dos frameworks cujo nome n�o � Rails conforme podemos observar no exemplo da Listagem 13.

Listagem 13: Nega��o do lookbehind.

<?php
preg_match("/ ?(?<!Rails) \(([^)]+)\);?/",
   $input, $matches);
var_dump($matches);
// Output:
// array(2) {
//   [0]=>
//   array(4) {
//     [0]=>
//     string(14) " (JavaScript);"
//     [1]=>
//     string(7) " (PHP);"
//     [2]=>
//     string(10) " (Python);"
//     [3]=>
//     string(7) " (PHP);"
//   }
//   [1]=>
//   array(4) {
//     [0]=>
//     string(10) "JavaScript"
//     [1]=>
//     string(3) "PHP"
//     [2]=>
//     string(6) "Python"
//     [3]=>
//     string(3) "PHP"
//   }
// }
?>

Outra coisa interessante e �til s�o os condicionais. Eles s�o uma forma de criar express�es para que se possa casar padr�es diferentes, mas com a mesma finalidade. Na Listagem 14 � mostrado o uso do condicional.

O condicional � um pouco mais complexo que os demais, por�m ele � capaz de coisas que parecem m�gicas a, de segregar tipos diferentes de valores.

A estrutura � (?(express�o que caso casada)(deve dar match nesta)|(sen�o nesta)) e, que no caso, poderia ser lida da seguinte maneira: se a sequ�ncia de caracteres for somente de n�meros (?=\b\d+\b), ent�o coloque os n�meros no grupo numbers (?<numbers>\b\d+\b), sen�o coloque no grupo words (?<words>\b\w+\b).

Ainda � poss�vel encadear os condicionais fazendo uma esp�cie de if-elseif-else. Basta que a express�o executada em caso de falha da condi��o seja um condicional tamb�m, resultando em algo como (?(condicao)(caso true)|(?condicao)(caso true)(caso false)).

Listagem 14: Uso do condicional.

<?php
preg_match_all(
   '/(?(?=\b\d+\b)(?<numbers>\b\d+\b)|(?<words>\b\w+\b))/',
   $tweet,$matches);
var_dump($matches['words']);
var_dump($matches['numbers']);
// Output:
// array(6) {
//   [0]=>
//   string(0) ""
//   [1]=>
//   string(3) "mil"
//   [2]=>
//   string(0) ""
//   [3]=>
//   string(3) "e45"
//   [4]=>
//   string(3) "54b"
//   [5]=>
//   string(0) ""
// }
// array(6) {
//   [0]=>
//   string(3) "323"
//   [1]=>
//   string(0) ""
//   [2]=>
//   string(2) "25"
//   [3]=>
//   string(0) ""
//   [4]=>
//   string(0) ""
//   [5]=>
//   string(2) "10"
// }
?>

Ferramentas

Para se trabalhar com express�es regulares, j� foram desenvolvidos diversos softwares para testes e an�lise. Dentre os v�rios dispon�veis na web, foram listados abaixo alguns mais completos, com uma interface agrad�vel e simples de serem utilizados:

O RegexPal � um testador de express�es regulares online onde � poss�vel colocar v�rias frases, uma a cada linha. Estas linhas s�o coloridas indicando se casam ou n�o com a express�o regular digitada. Conta tamb�m com uma refer�ncia r�pida aos metacaracteres. Adicionalmente, � poss�vel gerar links permanentes para que os dados utilizados - tanto na express�o regular, quanto para os testes -, sejam carregados automaticamente.
O Rubular tem as mesmas caracter�sticas do RegexPal, se tornando uma alternativa para entusiastas do ruby on rails, uma vez que � constru�do utilizando-o, ao passo que o RegexPal tem sua engine feita em JavaScript.
Regular Expression Tester (ver se��o links) � um plugin para o Firefox que permite testar e auxilia na constru��o de express�es regulares.
O RegExplorer � uma alternativa desktop, que implementa a mesma id�ia por tr�s das ferramentas j� citadas.
RegexLib: n�o chega a ser uma ferramenta para testar express�es regulares, por�m � um enorme acervo de express�es regulares para problemas corriqueiros como valida��o de endere�o de website e e-mail. Para quem desejar, pode tamb�m contribuir com suas pr�prias express�es e alternativas.

Conclus�o

� evidente que h� muito mais para se aprender sobre o tema do que o descrito neste artigo. Este artigo � apenas uma introdu��o ao mundo das express�es regulares e sua import�ncia na valida��o de dados.

Na pr�tica, quanto mais utilizada, mais se percebe que nem sempre a menor express�o � a melhor escolha. Dependendo da complexidade da express�o, vale a pena dar uma olhada no modificador "x" e inserir coment�rios e quebras de linhas para formatar a express�o de forma a facilitar seu entendimento. Como n�o h� express�o certa ou errada, s� h� express�o que funciona e n�o funciona, prefira as mais simples �s complexas.

Vale lembrar que aprender express�es regulares � como aprender a tocar piano. Apenas ler partituras ou ver exemplos na internet n�o tornar�o uma pessoa em um bom pianista. Para isto, � necess�rio treino. Analisar e identificar os padr�es de texto, assim como o pianista examina uma partitura para encontrar a melhor posi��o para os dedos.

Outra dica: ao escrever express�es regulares � v�lido ter o cuidado de testar com bastantes valores, tanto valores que devem casar, como valores que n�o devem casar, evitando-se assim surpresas indesejadas.