Desvendando os mistérios do Charset � Revista Java Magazine 109

Do que se trata o artigo:

Neste artigo, apresentaremos desde os prim�rdios do c�digo Morse e da tabela ASCII, at� o nascimento do padr�o Unicode, para explicar como funcionam os sistemas de codifica��o e seus principais problemas dentro da plataforma Java.

Em que situa��o o tema � �til:

Quem ainda n�o teve problemas de codifica��o certamente um dia ter�. Com base nisso, este artigo visa auxiliar na redu��o do sofrimento causado por este tipo de problema e ainda diminuir o tempo gasto com solu��es baseadas em tentativa e erro.

Desvendando os mist�rios do Charset:

Este artigo tem como objetivo chamar a aten��o para um tema complicado e que a maior parte dos desenvolvedores acaba dando pouca import�ncia no dia a dia. Para isso vamos apresentar as origens dos sistemas de codifica��o e uma s�rie de dicas para ajudar a resolver problemas e evitar dores de cabe�a no futuro.

Quem nunca passou vergonha na hora de apresentar um software rec�m-implementado e se surpreendeu com caracteres estranhos, e at� misteriosos, tomando o lugar da acentua��o das palavras?

Esse tipo de problema � extremamente comum e costuma acompanhar a maior parte dos desenvolvedores de software ao longo de suas vidas profissionais. Entretanto, tentar resolv�-lo na base da tentativa e erro ou ainda recorrendo a outros tipos de ci�ncias esot�ricas pode n�o dar certo e ainda prolongar o sofrimento.

Na maior parte das vezes � extremamente simples resolver esse tipo de mal entendido entre diferentes sistemas de codifica��o, no entanto, como v�rias partes do software e principalmente de seu ambiente s�o afetadas, pode ser traum�tico encontrar o local exato para efetuar os ajustes.

Neste artigo, vamos a fundo �s ra�zes do problema, apresentando desde os prim�rdios do c�digo Morse e da tabela ASCII, at� o nascimento do padr�o Unicode, para explicar como funcionam os mecanismos de convers�o de caracteres nas profundezas do Java.

Tudo come�ou com o C�digo Morse

Em 1836, Samuel F. B. Morse, Joseph Henry e Alfred Vail desenvolveram um importante meio de comunica��o, baseado na transmiss�o de pulsos el�tricos, conhecido como tel�grafo. Na �poca, o sistema de codifica��o utilizado para transmitir mensagens de maneira r�pida e confi�vel era o c�digo Morse. Este consistia na representa��o das letras do alfabeto e n�meros por meio de pulsos el�tricos longos e curtos, como pode ser visto na Figura 1.

Figura 1. C�digo Morse com seus pulsos longos e curtos.

Em suas primeiras vers�es, o c�digo Morse n�o contava com letras min�sculas, acentuadas ou mesmo sinais de pontua��o, e foi sendo estendido ao longo do tempo conforme se estabeleciam comunica��es entre diferentes idiomas. Muitos anos mais tarde, o mesmo processo de evolu��o ocorrido com o c�digo Morse foi acontecendo com os sistemas de codifica��o dos computadores, que veremos a seguir.

Entendendo os sistemas de codifica��o de caracteres

Um sistema de codifica��o de caracteres, ou character encoding, consiste em uma forma de associar um determinado conjunto de letras, n�meros e s�mbolos, a um tipo de representa��o � n�meros bin�rios, hexadecimais ou mesmo pulsos el�tricos � com o objetivo de facilitar a transmiss�o e o armazenamento dos dados.

Em 1963, a American Standards Association criou uma tabela de codifica��o de caracteres chamada ASCII, com o objetivo de padronizar o sistema de codifica��o utilizado na �poca, quando era comum que cada fabricante criasse seus pr�prios sistemas, o que causava incompatibilidade entre diferentes plataformas.

Essa tabela utilizava um conjunto de 7 bits para representar 128 caracteres, o que era suficiente para exibir todas as palavras e s�mbolos mais utilizados em textos escritos na l�ngua inglesa. Entretanto, para os idiomas latinos, que em geral possuem muitas palavras acentuadas, al�m de outros tipos de pontua��o, o ASCII n�o era suficiente. Por esse motivo, a ISO (International Standards Organization) criou v�rias extens�es (norma 8859) baseadas na tabela ASCII, com 8 bits, para suprir as necessidades de diversos pa�ses e idiomas.

Ao todo, existem cerca de 16 varia��es da codifica��o ISO-8859, onde uma das mais utilizadas � a ISO-8859-1, ou Latin-1, adotada em boa parte da Europa, �frica e, principalmente nas Am�ricas, por dar suporte completo aos idiomas portugu�s, espanhol, alem�o, italiano e ingl�s.

O nascimento do padr�o Unicode

O Unicode foi criado no fim da d�cada de 80 por Joe Becker da Xerox e Lee Collins da Apple com o objetivo de ser um padr�o de codifica��o de caracteres mundialmente aceito e que fosse capaz de resolver o problema de incompatibilidade entre os diferentes sistemas de codifica��o de caracteres utilizados na �poca.

Somente o idioma japon�s possui tr�s sistemas de escrita: Hiragana, Katakana e Kanji. Este �ltimo � formado por cerca de 40 mil kanjis, ou ideogramas, que representam ideias, conceitos e que podem ter mais de um significado. Conjuntos de caracteres complexos como este n�o poderiam ser representados pelos apenas 8 bits dos sistemas de codifica��o mais tradicionais, como os da norma ISO-8859.

...

Quer ler esse conteúdo completo? Tenha acesso completo