SGBD Oracle - Implementação de Função para Fonetização em Português

I � Introdu��o

�

Todos que trabalham com inform�tica, e neste caso me dirijo principalmente aos profissionais

que lidam com Sistemas de Gerenciamento de Banco de Dados(SGBDS), sabem� da exist�ncia

de centenas de fun��es �teis nos SGBDS que gostar�amos de utilizar, mas que por terem sido concebidas para outros pa�ses, com l�ngua e sistemas m�tricos diferentes, se mostram invi�veis para utiliza��o no nosso ambiente operacional. �Uma maneira muito interessante de tratar essa limita��o, existente na maioria dos SGBDS, � lan�armos m�o da cria��o de nossas pr�prias fun��es, adequando-as ao nosso ambiente e necessidades. Vamos exemplificar esse procedimento com a cria��o de um procedimento armazenado em Java seu acesso como uma fun��o p�blica no SGBD Oracle.

�

Por que implementar a fun��o no SGBD e n�o na aplica��o?� Confesso que esta discuss�o esta muito em pauta e, que �coloca muitas vezes os administradores de Banco de Dados em conflito com os Desenvolvedores de Aplica��o, na minha modesta opini�o o assunto deve ser tratado caso a caso com a devida isen��o t�cnica levando em conta v�rios fatores que podem pesar pela op��o do SGBD, tais como:

�

�� A natureza da organiza��o � para grandes Organiza��es, como Bancos Comerciais, seu maior patrim�nio s�o os dados e pelo porte de suas organiza��es a mudan�a de SGBD n�o � uma op��o constante, conhe�o organiza��es que trabalham a

�� mais de 10 anos com o mesmo SGBD e todos os seus projetos para daqui a 5 anos incluem o mesmo SGBD. Neste caso a independ�ncia da aplica��o com rela��o ao SGBD n�o � fator chave, inclusive a sugest�o de altera��o do SGBD por parte de desenvolvedores externos � visto com muitas reservas. Nestes casos o cliente espera justamente o contr�rio, que se obtenha o m�ximo de seu SGBD, valorizando seu investimento, que n�o � pequeno.

�

�� Muitas organiza��es com SGBD centralizado, Federado ou n�o, e que possuem ambiente de desenvolvimento e produ��o muito heterog�neos, com base de dados �nica optam pela centraliza��o das regras de neg�cio no SGBD para evitarem os risco de perda da �intelig�ncia � da sua atividade e fortalecer a padroniza��o sobre os diversos aplicativos que executam em �paralelo. Dessa forma uma aplica��es diferentes (Delphi-client-server, .NET ou Java) realizam exatamente o mesmo procedimento padronizado no Banco de Dados. Ao mesmo tempo em que o cliente domina a �intelig�ncia� de seu neg�cio ele imp�e uma padroniza��o aos seus desenvolvedores, sem se utilizar de Servidores de Aplica��o ou protocolos criados para essa finalidade.

�

��

N�o estou querendo afirmar que sempre se devam criar as fun��es no SGBD, n�o se deve, mas que sempre se deve proceder � an�lise da melhor alternativa para cada caso.

�

I I � Fun��o para busca fon�tica em Portugu�s

�

Um problema comum na localiza��o de registros, principalmente nomes pr�prios, vem da maneira como palavras pronunciadas da mesma maneira possuem diversas grafias, por exemplo Rafael e Raphael, Valter �e Walter, etc.. que tem exatamente a mesma pronuncia, mas que possuem grafias diferentes o que torna a �busca com operadores relacionais e fun��es, como ��like�, ineficientes em muitos casos. Para a l�ngua Inglesa existe, em diversos sistemas, a fun��o Soundex (para maiores detalhes procure a documenta��o do seu SGBD e caso queira conhecer um pouco mais sobre este algoritmo uma �tima refer�ncia � ART OF COMPUTER PROGRAMMING - V.3 SORTING AND SEARCHING,� KNUTH, DONALD ERVIN).

�

Antes de entrar na fun��o propriamente dita, abrimos um par�ntese, existem diversas abordagens a esse problema, como por exemplo: A fun��o deve ser inserida no banco ou aplicativo?, Como proceder a fonetiza��o?(devemos fonetizar o nome completo ou cada parte do mesmo?) Existe um modelo que maximiza a efici�ncia do algoritmo?. Estas quest�es extrapolam o escopo desse pequeno artigo no qual vamos nos concentrar com a fun��o de fonetiza��o, sua implementa��o no banco de dados e sua utiliza��o fazendo �s vezes da fun��o �soundex�. S� para deixar registro existe um alfab�tico fon�tico internacional, j� reparou nos caracteres �esquisitos� de seu dicion�rio ingl�s-portugu�s?, infelizmente os ling�istas de l�ngua portuguesa n�o se deram, ainda, a import�ncia que seria� a exist�ncia de padroniza��o fon�tica em caracteres da l�ngua portuguesa para a inform�tica,� isso quer dizer que em virtude de diferen�as nestes algoritmos podemos ter diferen�as de resultados, mas este � um assunto para outro momento,� e um dos motivos que podem servir de justificativa para que a fun��o fique centralizada no SGBD.��

�

I I I� Procedimento Java Armazenado

�

Como citado anteriormente iremos construir nossa fun��o tomando como base procedimentos armazenados em Java, se poss�vel leia novamente as edi��es 4� e 5 da SQLMagazine.

��

A decis�o de se usar procedimentos armazenados em Java no Oracle, e n�o uma linguagem como C/C++, � que os mesmos s�o executados originalmente no JVM do Oracle no espa�o de endere�o do banco de dados, com isso temos menor n�mero de trocas de contexto entre processos ao n�vel de sistema operacional ao mesmo tempo em que o c�digo Java esta sempre executando como �propriet�rio do software Oracle�, detalhe o Oracle possui uma JDK embutido, Oracle9i - jdk 1.3 e o 10g - jdk 1.4 ambos Aurora. Para este exemplo utilizamos o Oracle 9i, creio que o mesmo funcionar� sem maiores problemas para o Oracle 10G, por�m n�o � poss�vel implementar esses procedimento no Oracle Express Edition(XE) pois o mesmo n�o possui suporte para tal.

�

Neste exemplo iremos montar nossa classe Java fonetizar com a utiliza��o do comando

CREATE JAVA, este comando cria um objeto contendo um fonte de c�digo Java ou uma Classe(maiores detalhes Oracle9i � SQL Reference � a96540.pdf) o comando utilizado ter� a seguinte sintaxe:

�

CREATE OR REPLACE AND RESOLVE JAVA SOURCE NAMED "Fonetica"� As ...

�

O fonte da fun��o de fonetiza��o em Java, para a l�ngua portuguesa que iremos utilizar � a disponibilizada pelo Instituto do Cora��o da Faculdade de Medicina da Universidade de S�o Paulo, que desenvolveu alguns componentes de fonetiza��o em Java com suporte CORBA e est� disponibilizando-os com c�digo fonte aberto
(licen�a GNU) no Cons�rcio de Componentes de Software para Sistemas de Informa��o em Sa�de (CCS-SIS). Estes componentes de fonetiza��o foram utilizados na implementa��o do Servi�o de Identifica��o de Pacientes (PIDS) e est�o dispon�veis em : http://www.incor.usp.br/spdweb/ccssis/fonetica/.

�

Visando simplificar a sua utiliza��o usamos,� apenas um pequeno fragmento desse pacote, mas fortemente indico a todos que o estudem por completo.

�

O Comando com o algoritmo Java completo est� na listagem 1(anexos).

�

I V � Procedimento Java Armazenado

��

Uma vez criada a classe temos que a tornar acess�vel para nossos usu�rios, isso se d�� com a cria��o de uma fun��o, obs.: Lembro que s�o necess�rias as permiss�es e privil�gios para a realiza��o dessas tarefas.

�

CREATE OR REPLACE FUNCTION FONETIZAR (str VARCHAR) RETURN VARCHAR

AS LANGUAGE JAVA NAME 'Fonetica.fonetizar(java.lang.String) return java.lang.String';

�

Por fim agora podemos criar um sin�nimo p�blico para tornar dispon�vel a todos os usu�rios do nosso banco a fun��o que acabamos de criar.

�

CREATE PUBLIC SYNONYM FONETIZAR FOR FONETIZAR;

��

Neste momento podemos testar nossa fun��o, imaginado uma� tabela FUNCIONARIO , com o campo nome (varchar) a pesquisa poderia ser feita da seguinte forma:

�

�� SELECT NOME, CPF FROM FUNCIONARIOS

�� WHERE

�� FONETIZAR(NOME)=FONETIZAR(�RAPHAEL�)

�

Poder�amos obter como resultado tanto o funcion�rio �RAPHAEL� como �RAFAEL�, uma outra customiza��o poss�vel seria a constru��o de uma tabela com os nomes �fonetizados� juntamente com um �ndice para a tabela FUNCIONARIO, com isso pode-se realizar uma busca mais r�pida e com �fragmentos� do nome, poder�amos ter como retorno LUIZ RAPHAEL ou ROBERTO RAFAEL, juntamente com os resultados j� retornados.

�

Espero que tenham gostado, e at� a pr�xima.��

�

V - Anexos

�

Listagem 1

�

CREATE OR REPLACE AND RESOLVE JAVA SOURCE NAMED "Fonetica" AS

import java.util.*;

public class Fonetica {��

�public static String fonetizar (String str) {

�� //Fonetiza o string recebido como parametro e devolve

�� //um outro string (que e o primeiro fonetizado)

�

�� str = str.toUpperCase(); //todas as letras maiusculas

�� str = removePrep(str); //remove as preposi��es

�� str = removeAccentuation(str); //remove os acentos

�� str = removeStrange(str); //remove caracteres diferentes de

�� // A-Z, 0-9

�� str = fonetize(str); //fonetiza o texto

�� return str;

�� }��

�

�� public static String fonetize (String str) {

�� //Fun��o que faz efetivamente a substitui��o de letras,

�� //fonetizando o texto

��

�� //matrizes de caracteres utilizadas para manipular o texto

�� char[] foncmp = new char[256];

�� char[] fonwrk = new char[256];

�� char[] fonaux = new char[256];

�� char[] fonfon = new char[256];

��

�� int i, j, x, k, //contadores

�� desloc, //posicao atual no vetor

�� endfon, //indica se eh ultimo fonema

�� copfon, //indica se o fonema deve ser copiado

�� copmud, newmud; //indica se o fonema eh mudo

��

�� //Vetor utilizado para armazenar o texto:

�� //cada palavra do texto e armazenada em uma posicao do vetor

�� Vector component = new Vector();

��

�� i = 0;

�� j = 0;//zera os contadores

�

�� str = removeMultiple(str);

�� //todos os caracteres duplicados sao eliminados

�� //exemplo: SS -> S, RR -> R

�

�� component = strToVector(str);

�� //o texto eh armazenado no vetor:

�� //cada palavra ocupa uma posicao do vetor

�

�� for (desloc = 0; desloc < component.size(); desloc ++) {

�� //percorre o vetor, palavra a palavra

�

�� for (i = 0; i < 256; i++) {

�� fonwrk[i] = ' ';

�� fonfon[i] = ' ';//branqueia as matrizes

�� }//for

�

�� foncmp = component.elementAt(desloc).toString().toCharArray();

�� fonaux = foncmp;

�� //matrizes recebem os caracteres da palavra atual

�

�� j = 0;

�

�� if (component.elementAt(desloc).toString().length() == 1) {

�� fonwrk[0] = foncmp[0];

�� //se a palavra possuir apenas 1 caracter, nao altera a palavra

�

�� if (foncmp[0] == '_') {

�� fonwrk[0] = ' ';

�� //se o caracter for "_", troca por espaco em branco

�

�� }//if

� ��else

�� if ((foncmp[0] == 'E')||

�� (foncmp[0] == '&')||

�� (foncmp[0] == 'I')) {

�� fonwrk[0] = 'i';

�� //se o caracter for "E", "&" ou "I", troca por "i"

�

�� }//if

�� else {

�� for (i = 0; i < component.elementAt(desloc).toString().length(); i++)

�� //percorre a palavra corrente, caracter a caracter

�

�� if (foncmp[i] == '_')

�� fonfon[i] = 'Y';�� // _ -> Y

�� else

�� if (foncmp[i] == '&')

�� fonfon[i] = 'i';�� //& -> i

�� else

�� if ((foncmp[i] == 'E') ||

�� (foncmp[i] == 'Y') ||

�� (foncmp[i] == 'I'))

�� fonfon[i] = 'i';�� // E, Y, I -> i

�� else

�� if ((foncmp[i] == 'O') ||

�� (foncmp[i] == 'U'))

�� fonfon[i] = 'o';�� // O, U -> u

�� else

�� if (foncmp[i] == 'A')

�� fonfon[i] = 'a';�� // A -> a

�� else

�� if (foncmp[i] == 'S')

�� fonfon[i] = 's';�� // S -> s

�� else

�� fonfon[i] = foncmp[i];

�� //caracter nao eh modificado

�

�� endfon = 0;

�� fonaux = fonfon;

�

�� //palavras formadas por apenas 3 consoantes

�� //sao dispensadas do processo de fonetizacao

�� if (fonaux[3] == ' ')

�� if ((fonaux[0] == 'a') ||

�� (fonaux[0] == 'i') ||

�� (fonaux[0] == 'o'))

�� endfon = 0;

�� else

�� if ((fonaux[1] == 'a') ||

�� (fonaux[1] == 'i') ||

�� (fonaux[1] == 'o'))

�� endfon = 0;

�� else

�� if ((fonaux[2] == 'a') ||

�� (fonaux[2] == 'i') ||

�� (fonaux[2] == 'o'))

�� endfon = 0;

�� else {

�� endfon = 1;

�� fonwrk[0] = fonaux[0];

�� fonwrk[1] = fonaux [1];

�� fonwrk[2] = fonaux [2];

�� }//else

�

�� if (endfon != 1) { //se a palavra nao for formada por apenas 3 consoantes...

�� for (i = 0; i < component.elementAt(desloc).toString().length(); i++) {

�� //percorre a palavra corrente, letra a letra

�

�� copfon = 0;

�� copmud = 0;

�� newmud = 0;

�� //zera variaveis de controle

�

�� switch (fonaux[i]) {

�

�� case 'a':� //se o caracter for a

�

�� //se a palavra termina com As, AZ, AM, ou AN,

�� //elimina a consoante do final da palavra

�� if ((fonaux[i+1]== 's') ||

�� (fonaux[i+1]== 'Z') ||

�� (fonaux[i+1]== 'M') ||

�� (fonaux[i+1]== 'N'))

�� if(fonaux[i+2]!= ' ')

�� copfon = 1;

�� else {

�� fonwrk[j] = 'a';

�� fonwrk[j+1] = ' ';

�� j++;

�� i++;

�� }//else

�� else copfon = 1;

�� break;

�

�� case 'B':� //se o caracter for B

�

�� // B nao eh modificado

�� copmud = 1;

�� break;

�

�� case 'C':� //se o caracter for C

�

�� x = 0;

�� if (fonaux[i+1] == 'i')

�

�� //ci vira si

�� { fonwrk[j] = 's';

�� j++;

�� break;

�� }//if

�

�� //coes final vira cao

�� if ((fonaux[i+1] == 'o') &&

�� (fonaux[i+2] == 'i') &&

�� (fonaux[i+3] == 's') &&

�� (fonaux[i+4] == ' '))

�� { fonwrk[j] = 'K';

�� fonwrk[j+1] = 'a';

�� fonwrk[j+2] = 'o';

�� i = i + 4;

�� break;

�� }//if

�

�� //ct vira t

�� if (fonaux[i+1] == 'T')

�� break;

�

�� //�� c vira k

�� if (fonaux[i+1] != 'H')

�� { fonwrk[j] = 'K';

�� newmud = 1;

�

�� //�� ck vira k

�� if (fonaux[i+1] == 'K')

�� { i++;

�� break;

�� }//if

�

�� else break;

�� }//if

�

�� //ch vira k para chi final, chi vogal, chini final e

�� //chiti final

�

�� //chi final ou chi vogal

�� if (fonaux[i+1] == 'H')

�� if (fonaux[i+2] == 'i')

�� if ((fonaux[i+3] == 'a')||

�� (fonaux[i+3] == 'i')||

�� (fonaux[i+3] == 'o'))

�� x = 1;

�

�� // chini final

�� else

�� if (fonaux[i+3] == 'N')

�� if (fonaux[i+4] == 'i')

�� if (fonaux[i+5] == ' ')

�� x = 1;

�

�� else;

�� else

�� // chiti final

�� if (fonaux[i+3] == 'T')

�� if (fonaux[i+4] == 'i')

�� if (fonaux[i+5] == ' ')

�� x = 1;

�� if (x == 1)

�� { fonwrk[j] = 'K';

�� j++;

�� i++;

�� break;

�� }//if

�

�� //chi, nao chi final, chi vogal, chini final ou chiti final

�� //ch nao seguido de i

�� //se anterior nao e s, ch = x

�� if (j > 0)

�

�� //sch: fonema recua uma posicao

�� if (fonwrk[j-1] == 's')

�� { j--;

�� }//if

�� fonwrk[j] = 'X';

�� newmud = 1;

�� i++;

�� break;

�

�� case 'D':� //se o caracter for D

�� x = 0;

�

�� //procura por dor

�� if (fonaux[i+1] != 'o')

�� { copmud = 1;

�� break;

�� }//if

�� else

�� if (fonaux[i+2] == 'R')

� ��if (i != 0)

�� x = 1; // dor nao inicial

�� else copfon = 1; // dor inicial

�� else copfon = 1;� // nao e dor

�� if (x == 1)

�� if (fonaux[i+3] == 'i')

�� if (fonaux[i+4] == 's') // dores

�� if (fonaux[i+5] != ' ')

�� x = 0;� // nao e dores

�� else;

�� else x = 0;

� ��else

�� if (fonaux[i+3] == 'a')

�� if (fonaux[i+4] != ' ')

�� if (fonaux[i+4] != 's')

�� x = 0;

�� else

�� if (fonaux[i+5] != ' ')

�� x = 0;

�� else;

�� else x = 0;

�� if (x == 1)

�� { fonwrk[j] = 'D';

�� fonwrk[j+1] = 'o';

�� fonwrk[j+2] = 'R';

�� i = i + 5;

�� }//if

�� else copfon = 1;

�� break;

�

�� case 'F':� //se o caracter for F

�

�� //F nao eh modificado

�� copmud = 1;

�� break;

�

�� case 'G':� //se o caracter for G

�

�� //gui -> gi

�� if (fonaux[i+1] == 'o')

�� if (fonaux[i+2] == 'i')

�� { fonwrk[j] = 'G';

�� fonwrk[j+1] = 'i';

�� j += 2;

�� i +=2;

�� }//if

�� //diferente de gui copia como consoante muda

�� else copmud = 1;

�� else

�

�� //gl

�� if (fonaux[i+1] == 'L')

�� if (fonaux[i+2] == 'i')

�

�� //gli + vogal -> li + vogal

�� if ((fonaux[i+3]=='a')||

�� (fonaux[i+3]=='i')||

�� (fonaux[i+3]=='o'))

�� { fonwrk[j] = fonaux[i+1];

�� fonwrk[j+1] = fonaux[i+2];

�� j += 2;

�� i += 2;

�� }//if

�� else

�

�� //glin -> lin

� ��if(fonaux[i+3] == 'N')

�� { fonwrk[j] = fonaux[i+1];

�� fonwrk[j+1] = fonaux[i+2];

�� j += 2;

�� i += 2;

�� }/*if*/

�� else copmud = 1;

�� else

�

�� //gn + vogal -> ni + vogal

�� if (fonaux[i+1] == 'N')

�� if((fonaux[i+2]!='a')&&

�� (fonaux[i+2]!='i')&&

�� (fonaux[i+2]!='o'))

�� copmud = 1;

�� else

�� { fonwrk[j] = 'N';

�� fonwrk[j+1] = 'i';

�� j += 2;

�� i++;

�� }//else

�� else

�

�� //�� ghi -> gi

�� if (fonaux[i+1] == 'H')

�� if (fonaux[i+2] == 'i')

�� { fonwrk[j] = 'G';

�� fonwrk[j+1] = 'i';

�� j += 2;

�� i +=2;

�� }//if

�� else copmud = 1;

�� break;

�

�� case 'H':� //se o caracter for H

�

�� //H eh desconsiderado

�� break;

�

�� case 'i':� //se o caracter for i

�

�� if (fonaux[i+2] == ' ')

�

�� //is ou iz final perde a consoante

�� if (fonaux[i+1] == 's')

�� { fonwrk[j] = 'i';

�� break;

�� }//if

�� else

�� if (fonaux[i+1] == 'Z')

�� { fonwrk[j] = 'i';

�� break;

�� }//if

�

�� //ix

�� if (fonaux[i+1] != 'X')

�� copfon = 1;

�� else

�� if (i != 0)

�� copfon = 1;

�� else

�

�� //ix vogal no inicio torna-se iz

�� if ((fonaux[i+2]=='a')||

�� (fonaux[i+2]=='i')||

�� (fonaux[i+2]=='o'))

�� { fonwrk[j] = 'i';

�� fonwrk[j+1] = 'Z';

�� j += 2;

�� i++;

�� break;

�� }//if

�� else

�

�� //ix consoante no inicio torna-se is

�� if (fonaux[i+2]=='C' || fonaux[i+2]=='s') {

�� fonwrk[j] = 'i';

�� j++;

�� i++;

�� break;

�� }//if

�� else

�� { fonwrk[j] = 'i';

�� fonwrk[j+1] = 's';

�� j += 2;

�� i++;

�� break;

�� }//else

�� break;

�

�� case 'J':� //se o caracter for J

�

�� //J -> Gi

�� fonwrk[j] = 'G';

�� fonwrk[j+1] = 'i';

�� j += 2;

�� break;

�

�� case 'K':� //se o caracter for K

�� //KT -> T

�� if (fonaux[i+1] != 'T')

�� copmud = 1;

�� break;

�

�� case 'L':� //se o caracter for L

�

�� //L + vogal nao eh modificado

�� if ((fonaux[i+1] == 'a')||

�� (fonaux[i+1] == 'i')||

�� (fonaux[i+1] == 'o'))

�� copfon = 1;

�� else

�

�� //L + consoante -> U + consoante

�� if (fonaux[i+1] != 'H')

�� { fonwrk[j] = 'o';

�� j++;

�� break;

�� }//if

�

�� //LH + consoante nao eh modificado

�� else

�� if (fonaux[i+2] != 'a' &&

�� fonaux[i+2] != 'i' &&

�� fonaux[i+2] != 'o')

� ��copfon = 1;

�� else

�

�� //LH + vogal -> LI + vogal

�� { fonwrk[j] = 'L';

�� fonwrk[j+1] = 'i';

�� j += 2;

�� i++;

�� break;

�� }

�� break;

�

�� case 'M':� //se o caracter for M

�

�� //M + consoante -> N + consoante

�� //M final -> N

�� if ((fonaux[i+1] != 'a' &&

�� fonaux[i+1] != 'i' &&

�� fonaux[i+1] != 'o') ||

�� (fonaux[i+1] == ' '))

�� { fonwrk[j] = 'N';

�� j++;

�� }//if

�

�� //M nao eh alterado

�� else copfon = 1;

�� break;

�

�� case 'N':� //se o caracter for N

�

�� //NGT -> NT

�� if ((fonaux[i+1] == 'G') &&

�� (fonaux[i+2] == 'T'))

�� { fonaux[i+1] = 'N';

�� copfon = 1;

�� }//if

�� else

�

�� //NH + consoante nao eh modificado

�� if (fonaux[i+1] == 'H')

�� if ((fonaux[i+2] != 'a')&&

�� (fonaux[i+2] != 'i')&&

�� (fonaux[i+2] != 'o'))

�� copfon = 1;

�

�� //NH + vogal -> Ni + vogal

�� else

�� { fonwrk[j] = 'N';

�� fonwrk[j+1] = 'i';

�� j += 2;

�� i++;

�� }

�� else copfon = 1;

�� break;

�

�� case 'o':� //se o caracter for o

�

�� //oS final -> o

�� //oZ final -> o

�� if ((fonaux[i+1] == 's') ||

�� (fonaux[i+1] == 'Z'))

�� if (fonaux[i+2] == ' ')

�� { fonwrk[j] = 'o';

�� break;

�� }//if

�� else copfon = 1;

�� break;

�

�� case 'P':� //se o caracter for P

�

�� //PH -> F

�� if (fonaux[i+1] == 'H')

�� { fonwrk[j] = 'F';

�� i++;

�� newmud = 1;

�� }//if

�� else

�� copmud = 1;

�� break;

�

�� case 'Q':� //se o caracter for Q

�

�� //Koi -> Ki (QUE, QUI -> KE, KI)

� ��if (fonaux[i+1] == 'o')

�� if (fonaux[i+2] == 'i')

�� { fonwrk[j] = 'K';

�� j++;

�� i++;

�� break;

�� }//if

�

� ��//QoA -> KoA (QUA -> KUA)

�� fonwrk[j] = 'K';

�� j++;

�� break;

�

�� case 'R':� //se o caracter for R

�

�� //R nao eh modificado

�� copfon = 1;

�� break;

�

�� case 's':� //se o caracter for s

�

�� //s final eh ignorado

�� if (fonaux[i+1] == ' ')

�� break;

�

�� //s inicial + vogal nao eh modificado

�� if ((fonaux[i+1]=='a')||

�� (fonaux[i+1]=='i')||

�� (fonaux[i+1]=='o'))

�� if (i == 0)

�� { copfon = 1;

�� break;

�� }//if

�� else

�

�� //s entre duas vogais -> z

�� if ((fonaux[i-1] != 'a')&&

�� (fonaux[i-1]!='i')&&

�� (fonaux[i-1]!='o'))

�� { copfon = 1;

�� break;

�� }//if

�� else

�

�� //SoL nao eh modificado

�� if ((fonaux[i+1] == 'o') &&

�� (fonaux[i+2] == 'L') &&

�� (fonaux[i+3] == ' '))

�� { copfon = 1;

�� break;

�� }//if

�

�� else

�� { fonwrk[j] = 'Z';

�� j++;

�� break;

�� }//else

�

�� //ss -> s

�� if (fonaux[i+1] == 's')

�� if (fonaux[i+2] != ' ')

�� { copfon = 1;

�� i++;

�� break;

�� }//if

�� else

�� { fonaux[i+1] = ' ';

�� break;

�� }//else

�

�� //s inicial seguido de consoante fica precedido de i

�� //se nao for sci, sh ou sch nao seguido de vogal

�� if (i == 0)

�� if (!((fonaux[i+1] == 'C') &&

�� (fonaux[i+2] == 'i')))

�� if (fonaux[i+1] != 'H')

�� if (!((fonaux[i+1] == 'C') &&

�� (fonaux[i+2] == 'H') &&

�� ((fonaux[i+3] != 'a')&&

�� (fonaux[i+3]!='i')&&

�� (fonaux[i+3]!='o'))))

�� { fonwrk[j] = 'i';

�� j++;

�� copfon = 1;

�� break;

�� }//if

�

�� //sH -> X;

�� if (fonaux[i+1] == 'H')

�� { fonwrk[j] = 'X';

�� i++;

�� newmud = 1;

�� break;

�� }//if

�� if (fonaux[i+1] != 'C')

�� { copfon = 1;

�� break;

�� }//if

�

�� //�� sCh nao seguido de i torna-se X

�� if (fonaux[i+2] == 'H')

�� { fonwrk[j] = 'X';

�� i += 2;

�� newmud = 1;

�� break;

�� }//if

�� if (fonaux[i+2] != 'i')

�� { copfon = 1;

�� break;

�� }//if

�

�� //sCi final -> Xi

�� if (fonaux[i+3] == ' ')

�� { fonwrk[j] = 'X';

�� fonwrk[j+1] = 'i';

�� i = i + 3;

�� break;

�� }//if

�

�� //sCi vogal -> X

�� if ((fonaux[i+3]=='a')||

�� (fonaux[i+3]=='i')||

�� (fonaux[i+3]=='o') )

�� { fonwrk[j] = 'X';

�� j++;

�� i += 2;

�� break;

�� }//if

�

�� //sCi consoante -> si

�� fonwrk[j] = 's';

�� fonwrk[j+1] = 'i';

�� j += 2;

�� i += 2;

�� break;

�

�� case 'T':� //se o caracter for T

�

�� //TS -> S

�� if (fonaux[i+1] == 's')

�� break;

�

�� //TZ -> Z

�� else

�� if (fonaux[i+1] == 'Z')

�� break;

�� else copmud = 1;

�� break;

�

�� case 'V':� //se o caracter for V

� ��case 'W':� //ou se o caracter for W

�

�� //V,W inicial + vogal -> o + vogal (U + vogal)

�� if (fonaux[i+1] == 'a'||

�� fonaux[i+1] == 'i'||

�� fonaux[i+1] == 'o')

�� if (i == 0)

�� { fonwrk[j] = 'o';

�� j++;

�� }//if

�

�� //V,W NAO inicial + vogal -> V + vogal

�� else

�� { fonwrk[j] = 'V';

�� newmud = 1;

�� }//else

�

�� else

�� { fonwrk[j] = 'V';

�� newmud = 1;

�� }//else

�� break;

�

�� case 'X':� //se o caracter for X

�

�� //caracter nao eh modificado

�� copmud = 1;

�� break;

�

�� case 'Y':� //se o caracter for Y

�� //Y jah foi tratado acima

�� break;

�

�� case 'Z':� //se o caracter for Z

�

�� //Z final eh eliminado

�� if (fonaux[i+1] == ' ')

�� break;

�

�� //Z + vogal nao eh modificado

�� else

�� if ((fonaux[i+1] == 'a')||

�� (fonaux[i+1] == 'i')||

�� (fonaux[i+1] == 'o'))

�� copfon = 1;

�

�� //Z + consoante -> S + consoante

� ��else

�� { fonwrk[j] = 's';

�� j++;

�� }//else

�� break;

�

�� default: //se o caracter nao for um dos jah relacionados

�

�� //o caracter nao eh modificado

�� fonwrk[j] = fonaux[i];

�� j++;

�� break;

�� }//switch

�

�� //copia caracter corrente

�� if (copfon == 1)

�� { fonwrk[j] = fonaux[i];

�� j++;

�� }//if

�

�� //insercao de i apos consoante muda

�� if (copmud == 1)

�� fonwrk[j] = fonaux[i];

�� if (copmud == 1 || newmud == 1)

�� { j++;

�� k = 0;

�� while (k == 0)

�� if (fonaux[i+1] == ' ')

�� //e final mudo

�� { fonwrk[j] = 'i';

�� k = 1;

�� }//if

�� else

�� if ((fonaux[i+1]=='a')||

�� (fonaux[i+1]=='i')||

�� (fonaux[i+1]=='o'))

�� k = 1;

�� else

�� if (fonwrk[j-1] == 'X')

�� { fonwrk[j] = 'i';

�� j++;

�� k = 1;

�� }//if

�� else

�� if (fonaux[i+1] == 'R')

�� k = 1;

�� else

�� if (fonaux[i+1] == 'L')

�� k = 1;

�� else

�� if (fonaux[i+1] != 'H')

�� { fonwrk[j] = 'i';

�� j++;

�� k = 1;

�� }//if

�� else i++;

�� }

�

�� }//for

�� }//if

�� }//else

�

�� for (i = 0; i < component.elementAt(desloc).toString().length() + 3; i++)

�� //percorre toda a palavra, letra a letra

�

�� //i -> I

�� if (fonwrk[i] == 'i')

�� fonwrk[i] = 'I';

�� else

�

�� //a -> A

�� if (fonwrk[i] == 'a')

�� fonwrk[i] = 'A';

�� else

�

�� //o -> U

�� if (fonwrk[i] == 'o')

�� fonwrk[i] = 'U';

�� else

�

�� //s -> S

�� if (fonwrk[i] == 's')

�� fonwrk[i] = 'S';

�� else

�

�� //E -> b

�� if (fonwrk[i] == 'E')

�� fonwrk[i] = ' ';

�� else

�

�� //Y -> _

�� if (fonwrk[i] == 'Y')

�� fonwrk[i] = '_';

�

�� //retorna a palavra, modificada, ao vetor que contem o texto

�� component.setElementAt(str.copyValueOf(fonwrk), desloc);

�� j = 0; //zera o contador

�� }//for

�

�� str = vectorToStr(component);

�� //remonta as palavras armazenadas no vetor em um unico string

�

�� str = removeMultiple(str);

�� //remove os caracteres duplicados

�

�� return str.toUpperCase().trim();

�� }

��

�

�� public static String removePrep(String str) {

�� int i,j;

�� Vector palavra = new Vector();

�� palavra = strToVector(str);

�� String prep[] = {"DEL","DA","DE","DI","DO","DU","DAS","DOS","DEU","DER","E","LA","LE","LES","LOS","VAN","VON","EL"};

�

�� for (i = 0; i < palavra.size(); i++) {

�� for (j = 0; j < prep.length; j++) {

�� if (palavra.elementAt(i).toString().compareTo(prep[j]) == 0) {

�� palavra.removeElementAt(i);

�� i--;

�� }

�� return vectorToStr(palavra);

�� }

�

�� public static String removeMultiple (String str) {

� //Retira do texto carateres que estao multiplicados:

� // ss -> s, sss -> s, rr -> r

�

�� char[] foncmp = new char[256];

�� //matriz de caracteres que armazena o texto sem duplicatas

�

�� char[] fonaux = new char[256];

�� //matriz de caracteres que armazena o texto original

�

�� char[] tip = new char[1]; //armazena o caracter anterior

�

�� int i, j;� //contadores

�

�� j = 0;

�� tip[0] = ' ';

�� fonaux = str.toCharArray();

�� //a matriz de caracteres recebe o string original

�

� ��for (i = 0; i < str.length(); i++) {

�� //percorre o texto, caracter a caracter

�

�� //elimina o caracter se ele for duplicata e

�� //nao for numero, espaco ou S

�� if ((fonaux[i] != tip[0]) || (fonaux[i] == ' ')

�� ||((fonaux[i]>='0') && (fonaux[i]<='9'))

�� ||((fonaux[i]=='S')&&(fonaux[i-1]=='S')&&

�� ( (i>1) && (fonaux[i-2]!='S')))) {

�� foncmp[j] = fonaux[i];

�� j++;

�� }

�

�� tip[0] = fonaux[i];

�� //reajusta o caracter de comparacao

�� }

�

�� //o string recebe o texto sem duplicatas

�� str = str.copyValueOf(foncmp);

�

�� return str.trim();

�� }//removeMultiple

�

� public static String removeAccentuation (String str) {

� //Substitui os caracteres acentuados por caracteres nao acentuados

�

�� char aux[] = new char[256];

�� //matriz de caracteres onde o texto eh manipulado

�

�� int i;� //contador

�

�� aux = str.toCharArray();

�� //matriz recebe o texto

�

�� for (i = 0; i < str.length(); i++) {

�� //percorre o texto, caracter a caracter

�

�� switch (aux[i])

�� { case '�':

�� aux[i]='E';� //� -> E

�� break;

�� case '�':

�� aux[i]='E';� //� -> E

�� break;

�� case '�':

�� aux[i]='E';� //� -> E

�� break;

�� case '�':

�� aux[i]='A';� //� -> A

�� break;

�� case '�':

�� aux[i]='A';� //� -> A

�� break;

�� case '�':

�� aux[i]='A';� //� -> A

�� break;

�� case '�':

�� aux[i]='A';� //� -> A

�� break;

�� case '�':

�� aux[i]='A';� //� -> A

� ��break;

�� case '�':

�� aux[i]='C';� //� -> C

�� break;

�� case '�':

�� aux[i]='I';� //� -> I

�� break;

�� case '�':

�� aux[i]='O';� //� -> O

�� break;

�� case '�':

�� aux[i]='O';� //� -> O

�� break;

�� case '�':

�� aux[i]='O';� //� -> O

�� break;

�� case '�':

�� aux[i]='O';� //� -> O

�� break;

�� case '�':

�� aux[i]='U';� //� -> U

�� break;

�� case '�':

�� aux[i]='U';� //� -> U

�� break;

�� case '�':

�� aux[i]='N';� //� -> N

�� break;

�� }

�� str = str.copyValueOf(aux).trim();

�� //o string recebe o texto sem acentuacao

�

�� return str;

�� }//removeAccentuation

�

� public static String removeStrange (String str) {

� //Elimina os caracteres que NAO sejam alfanumericos ou espacos

�

�� char[] foncmp = new char[256];

�� //matriz de caracteres que armazena o texto original

�

�� char[] fonaux = new char[256];

�� //matriz de caracteres que armazena o texto modificado

�

�� int i, j,� //contadores

�� first;� //indica se exitem espacos em branco antes do primeiro

�� //caracter: se 1 -> existem, se 0 -> nao existem

�

�� j = 0;

�� first = 1;

�� fonaux = str.toCharArray();

�� //matriz de caracteres recebe o texto

�

�� for (i = 0; i < 256; i++)

�� foncmp[i] = ' ';

�� //branqueia a matriz de caracteres

�

�� for (i = 0; i < str.length(); i++) {

�� //percorre o texto, caracter a caracter

�

�� //elimina os caracteres que nao forem alfanumericos ou espacos

�� if (((fonaux[i]>='A')&&

�� (fonaux[i]<='Z')) ||

�� ((fonaux[i]>='a')&&

�� (fonaux[i]<='z')) ||

�� ((fonaux[i]>='0')&&

�� (fonaux[i]<='9')) ||

�� (fonaux[i] == '&')� ||

�� (fonaux[i] == '_')� ||

�� ((fonaux[i] == ' ') && first == 0)) {

�� foncmp[j] = fonaux[i];

�� j++;

�� first = 0;

�� }//if

�� }//for

�� str = str.valueOf(foncmp);

�� //string recebe o texto da matriz de caracteres

�

�� return str.trim();

�� }//removeStrange

�

�� public static Vector strToVector(String str) {

�� //armazena o texto de um string em um vetor onde

�� //cada palavra do texto ocupa uma posicao do vetor

�

�� str = str.trim();

�

�� char[] fonaux = new char[256];

�� //matriz de caracteres que armazena o texto completo

�

�� char[] foncmp = new char[256];

�� //matriz de caracteres que armazena cada palavra

�

�� Vector component = new Vector();

�� //vetor que armazena o texto

�

�� String aux = new String();

�

�� int i, j,� //contadores

�� pos,�� //posicao da matriz

�� rep,�� //indica se eh espaco em branco repetido

�� first; //indica se eh o primeiro caracter

�

�� first = 1;

�� pos = 0;

�� rep = 0;

�

�� fonaux = str.toCharArray();

�� //matriz de caracteres recebe o texto

�

�� for (j = 0; j < 256; j++)

�� foncmp[j] = ' ';

�� //branqueia matriz de caracteres

�

�� for (i = 0; i < str.length(); i++) {

�� //percorre o texto, caracter a caracter

�

�� //se encontrar um espaco e nao for o primeiro caracter,

�� //armazena a palavra no vetor

�� if ((fonaux[i] == ' ') && (first != 1)) {

�� if (rep == 0) {

�� component.addElement(aux.copyValueOf(foncmp).trim());

�� pos = 0;

�� rep = 1;

�� for (j = 0; j < 256; j++)

� ��foncmp[j] = ' ';

�� }//if

�

�� //forma a palavra, letra a letra, antes de envia-la a uma

�� //posicao do vetor

�� else {

�� foncmp[pos] = fonaux[i];

�� first = 0;

�� pos++;

�� rep = 0;

�� }//else

�� }//for

�

�� if (foncmp[0] != ' ')

�� component.addElement(aux.copyValueOf(foncmp).trim());

�

�� return component;

�� }//strToVector

�

�� public static String vectorToStr(Vector vtr) {

�� //converte o texto armazenado em um vetor para um unico string

�

�� char[] foncmp = new char[256];

�� //matriz de caracteres que armazena o texto completo

�

�� char[] auxChar = new char[256];

�� //matriz de caracteres que armazena cada palavra

�

�� String auxStr = new String();

�� String str = new String();

�� int i, j, desloc;

�

�� desloc = 0;� //deslocamento dentro da matriz

�

�� for (i = 0; i < 256; i ++)

�� foncmp[i] = ' ';

�� //branqueia a matriz de caracteres

�

�� for (j = 0; j < vtr.size(); j++) {

�� //percorre o vetor, palavra a palavra

�

�� auxStr = (vtr.elementAt(j)).toString().trim();

�� //string recebe a palavra armazenada pelo vetor

�

�� auxChar = auxStr.toCharArray();

�� //matriz de caracteres recebe a palavra armazenada no vetor

�

�� for (i = 0; i < auxStr.length(); i++)

�� //percorre a matriz, caracter a caracter

�

�� foncmp[desloc + i] = auxChar[i];

�� desloc = desloc + auxStr.length() + 1;

�� }//for

�

�� str = str.valueOf(foncmp);

�� //string recebe o texto completo

�

�� return str.trim();

�

�� }//vectorToStr

}

�

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Devmedia Em 2007

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

SGBD Oracle - Implementa��o de Fun��o para Fonetiza��o em Portugu�s

Veja neste artigo a implementa��o de fun��o para fonetiza��o em Portugu�s.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Perguntas frequentes

Nossos casos de sucesso