Unicode no Lazarus - Revista ClubeDelphi 138

De que se trata o artigo

Este artigo ilustra como lidar corretamente com textos codificados no padr�o Unicode, mais especificamente com o Lazarus e o Free Pascal.

Em que situa��o o tema � �til

Lidar com textos � uma tarefa b�sica que praticamente qualquer programa precisa realizar. Fazer Parsing de textos para obter informa��es, modificar e gerar novos textos est� presente nas mais variadas aplica��es. Um navegador, por exemplo, precisa realizar o Parse dos textos em HTML da p�gina. Um cliente de banco de dados ir� precisar enviar textos redigidos pelo usu�rio para serem armazenados. Outro aplicativo qualquer poder� precisar ler um arquivo de configura��o. Em todos estes casos, ser� necess�rio lidar com textos que podem conter caracteres variados, desde os caracteres latinos mais b�sicos, at� a cedilha e, por que n�o, caracteres japoneses ou �rabes? Para lidar corretamente com estes textos e n�o empacar na primeira cedilha ou no primeiro a craseado, � necess�rio aprender a trabalhar corretamente com o Unicode.

Em que situa��o o tema � �til

Unicode � um padr�o que permite aos computadores representar e manipular, de forma consistente, texto de qualquer sistema de escrita existente. Este padr�o � desenvolvido pelo �Unicode Consortium�, uma organiza��o sem fins lucrativos que coordena o desenvolvimento do Unicode com o objetivo de substituir todos outros sistemas de codifica��o existentes, pois, estes n�o s�o adequados para sistemas com m�ltiplos idiomas. A vers�o mais recente do Unicode � a 6.0, que suporta pouco mais de 109.000 caracteres e 93 sistemas de escrita. O Unicode � um sucesso mundial e � suportado em todos principais sistemas operacionais (Windows, Linux, Mac OS X, Android, iOS e etc) e tamb�m nas principais IDEs de desenvolvimento em Pascal, o Lazarus desde 2006 e o Delphi desde 2009.

Qualquer desenvolvedor j� deve ter ouvido falar em ASCII e Unicode, que s�o as tecnologias mais amplamente utilizadas para codificar textos. Mas se por um lado o ASCII � trivial de se compreender, s�o poucos os desenvolvedores que realmente compreendem o Unicode e isto � um enorme problema, pois, lidar com textos � fundamental no desenvolvimento de qualquer Software. O desenvolvedor que n�o souber muito bem como lidar com a tecnologia Unicode, mais cedo ou mais tarde ir� enfrentar grandes dificuldades, ou mesmo descobrir que escreveu enormes quantidades de c�digos desnecess�rios e que provavelmente ir�o parar de funcionar corretamente ao ser confrontados com certos textos Unicode.

O principal desafio ao lidar com o Unicode � deixar para tr�s h�bitos herdados de codifica��es de texto que j� est�o completamente obsoletas, mas, que foram utilizadas por d�cadas. Trata-se das codifica��es que s�o capazes de codificar somente os caracteres de um idioma (ou grupo de idiomas) por vez, por exemplo, as v�rias codifica��es propriet�rias de cada sistema operacional e o ISO 8859. Desde o Windows 3.11 at� as vers�es do Windows 9x, e no Linux at� o in�cio dos anos 2000, se utilizou as �Windows Code Pages� para codificar os textos.

Nota do DevMan

Windows Code Pages s�o conjuntos de caracteres (tamb�m conhecidos como �Character Encodings� em outros Sistemas Operacionais) usados nas plataformas Microsoft Windows das d�cadas de 1980 e 1990. Windows Code Pages foram gradativamente substitu�dos quando o Unicode foi implementado no Windows, embora estes ainda sejam suportados tanto no Windows quanto em outras plataformas.

Nesse sistema h� muitas codifica��es de texto dispon�veis, por exemplo, uma especificamente para os idiomas da Europa ocidental (Windows 1252), outra para idiomas da Europa central (Windows 1250), outra para Russo, Ucraniano, etc (Windows 1251), outra somente para Chin�s, outra para Japon�s e assim por diante. O resultado � que se torna completamente imposs�vel escrever um aplicativo que possu� textos em v�rios idiomas ao mesmo tempo, como por exemplo, um dicion�rio ou um Softwarepara ensinar idiomas. Al�m dos aplicativos tamb�m ficarem restritos ao idioma do sistema operacional, de modo que seria imposs�vel execut�-lo em portugu�s num Windows 95 Russo. A maioria das pessoas poderia n�o notar os problemas causados por estas limita��es, mas pessoas que viajam com frequ�ncia logo notam. � perfeitamente poss�vel que um brasileiro trabalhe em uma empresa brasileira, tenha um Software em portugu�s e leve ele em uma viagem ao Jap�o. Supondo que no Jap�o h� a necessidade de executar o aplicativo. Caso o Software n�o tenha sido desenvolvido utilizando Unicode, o mesmo n�o executar� corretamente, pois, um computador japon�s sem Unicode n�o seria capaz de desenhar os caracteres do portugu�s. Para piorar ainda mais, cada sistema operacional decidiu usar codifica��es diferentes, ou seja,enquanto o Windows criou suas pr�prias Windows 1250, 1251, 125e e assim por diante, o Linux utilizou as codifica��es da ISO: ISO 8859-1 para idiomas latinos da Europa Ocidental, ISO 8859-2 para Europa Central e Oriental e etc. O ISO 8859-1 e o Windows 1252 s�o parcialmente compat�veis, mas as outras deriva��es deles nem tanto, h� tamb�m uma codifica��o do Mac OS X, incompat�vel com os dois primeiros, denominada de MacRoman. O resultado � que seria imposs�vel escrever um programa multi-plataforma. Esses tipos de restri��es foram os respons�veis pela queda dos sistemas passados de codificar texto e de suas substitui��es pelo Unicode.

...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO