Busca de Strings Similares: Linux

Strings Aproximadas.

   Voc� j� teve que procurar um padr�o incerto? Como strings que possam conter erros de digita��o, ou algo que se �pare�a�. Por exemplo, � comum errarem meu nome. De Thiago para Tiago. E uma regex /Thiago/ n�o acharia meu nome. Isso � f�cil de resolver com /Th?iago/. Mas e se o erro de digita��o estiver em outro lugar? Yago? Iago? Thigo? Vai saber o que aquele pessoal do call center digitou errado no meio de tanta pressa e tantas liga��es. Mas o erro de digita��o foi parar no banco de dados, n�o foi! Como eu posso achar possibilidades erradas para Thiago? Existe, claro um m�dulo CPAN para isso. O String::Approx. E a n�o ser que voc� queira criar seus pr�prios algoritmos para fuzzy match (seres humanos normais n�o querem), voc� vai preferir utilizar este m�dulo. Perceba que m�dulos CPAN n�o s�o como uma cartola de m�gico, eles tem uma l�gica (pesada neste caso) que permite que eles executem o trabalho, e fuzzy match � um algoritmo tipicamente mais lento que um algoritmo para match ordin�rio, pois s�o necess�rias mais compara��es.

   Depois que voc� instalar o m�dulo CPAN ou a biblioteca equivalente da sua distro ( libstring-approx-perl no Ubuntu), podemos come�ar a nossa brincadeira.

      1 #!/usr/local/bin/perl
      2 use 5.12.0;
      3 use String::Approx 'amatch';
      4
      5 my @inputs;
      6 push @inputs, $_ while $_=<STDIN>;
      7
      8 my @matches = amatch("equin�cio", @inputs);
      9
     10 print "\nOs matchs foram:\n";
     11 print "@matches";

./mymatch.pl
Equin�cio
equinocio
equi�cio

Os matchs foram:
Equin�cio
equi�cio

   Vamos aumentar a complexidade. Vamos configurar a dist�ncia entre a string de refer�ncia e o texto onde pesquisamos a string. Para isto modifique a linha 8 com o c�digo abaixo:

my @matches = amatch("equin�cio", [ "i 30%" ], @inputs);

   E todas as entradas anteriores ir�o aparecer na sa�da. Isso por que colocamos no array de configura��o a flag i, que significa ignore case e 30%. Isso quer dizer que at� 30% de diferen�a entre o padr�o fornecido (�equin�cio�) e a string de sa�da s�o aceit�veis. Se nenhum par�metro for fornecido, amatch aceitar� at� 10% de diferen�as:

./mymatch.pl
./mymatch.pl
Podemos colocar textos longos
para pesquisar as possibilidades de erro da palavra equi�cio
Ignorando o case, como em EQUINoci
Isto � �til para pesquisarmos possibilidades
de palvras similares em HTML, arquivos de log
ou erros de digita��o em registros de bancos.
quin�cio!

Os matchs foram:
para pesquisar as possibilidades de erro da palavra equi�cio
Ignorando o case, como em EQUINoci
quin�cio!

Mas isto ainda n�o � tudo que o String::Approx pode fazer por voc�. Ainda podemos substituir strings. Para substituirmos strings, substitua a linha 3 do script por:

use String::Approx 'asubstitute';

e a linha 8 por:

my @matches = asubstitute("equin�cio", �equin�cio�, [ "i 30%" ], @inputs);

e veja o que acontece. A sa�da muda para:

Os matchs foram:
para pesquisar as possibilidades de erro da palavra equin�cio Ignorando o case, como equin�cio

Todos as formas �incorretas� de equin�cio foram corrigidas.

Muitas outras coisas podem ser feitas com este m�dulo. De uma olhada na documenta��o do mesmo, use sua imagina��o e divirta-se. �No unnecessary limits�

Tecnologias:

Confira outros conte�dos:

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Ticursos.net Em 2011

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Busca de Strings Similares: Linux

Este artigo mostra como podemos buscar strings que s�o semelhantes, mas n�o exatamente iguais, como Thiago, Tiago ou Tigo. �til para corre��o de erros, sequ�ncias de DNA que sofreram muta��es ou an�lise de logs.

Confira outros conte�dos:

Perguntas frequentes

Nossos casos de sucesso