Unicode: Conceitos Básicos

Unicode � um padr�o adotado mundialmente que possibilita com que todos os caracteres de todas as linguagens escritas utilizadas no planeta possam ser representados em computadores. A �miss�o� do Unicode � apresentada de forma clara no web site do Unicode Consortium (entidade respons�vel pela sua gest�o):

Unicode fornece um n�mero �nico para cada caractere, n�o importa a plataforma, n�o importa o programa e n�o importa a linguagem.

O padr�o Unicode � capaz de representar n�o somente as letras utilizadas pelas linguagens mais �familiares� para n�s ocidentais, como Ingl�s, Espanhol, Franc�s e o nosso Portugu�s, mas tamb�m letras e s�mbolos utilizados em qualquer outra linguagem: Russo, Japon�s, Chin�s, Hebreu, etc. Al�m disso, inclui s�mbolos de pontua��o, s�mbolos t�cnicos e outros caracteres que podem ser utilizados em texto escrito.

Como o Unicode Trabalha?

No padr�o Unicode, cada diferente letra ou s�mbolo de cada alfabeto utilizado no mundo � mapeado para um diferente code point. O code point � um c�digo no formato U + n�mero em hexadecimal. O exemplo abaixo mostra os c�digos das letras que comp�em a palavra �BRASIL� (em mai�sculo).

B - U+0042
R - U+0052
A - U+0041
S - U+0053
I - U+0049
L - U+004C

� muito importante mencionar que as letras mai�sculas possuem code points diferentes das letras min�sculas. Por exemplo: o code point da letra �A� � U+0041, enquanto o da letra �a� � U+0061, o code point de �ǔ � U+00C7 e o de �� U+00E7 (e por a� vai). Outra observa��o importante � que os primeiros 127 code points (at� U+007F) s�o compat�veis com os c�digos utilizados na antiga tabela ASCII (basicamente s�o os c�digos associados aos n�meros, letras mai�sculas e min�sculas sem acento e s�mbolos de pontua��o mais comuns).

O aplicativo Mapa de caracteres (charmap) do Windows pode ser utilizado para consulta � tabela Unicode. Para acess�-lo, basta ir para o Prompt de Comando e digitar charmap. Na Figura 1, o Mapa de caracteres informa o code point associado � letra grega alfa.

Encodings

Do que foi apresentado na se��o anterior, podemos entender que o Unicode nada mais � do que uma enorme tabela que associa um n�mero �nico (code point) para cada diferente letra ou s�mbolo dos alfabetos de todo o mundo. Mas como esses code points podem ser armazenados em um arquivo texto ou na mem�ria do computador? � a� que entram em cena os encodings.

Um encoding � uma t�cnica que define regras para armazenar os code points dos caracteres que comp�em as strings na mem�ria do computador. Existem v�rios deles: UTF-8, ISO-8859-1 (apelidado de Latin-1), UCS-2, Windows-1252, etc. Cada encoding utiliza uma t�cnica distinta para lidar com os c�digos Unicode.

O encoding UTF-8, por exemplo, � capaz de representar qualquer caractere Unicode. Para conseguir isso, utiliza uma t�cnica que onde uma quantidade de 1 a 6 bytes pode ser utilizada para representar cada caractere. Ou seja, o UTF-8 n�o trabalha com uma representa��o em tamanho fixo. Os code points de 0 a 127 s�o armazenados com 1 byte. Por�m, os demais podem ser armazenados em mem�ria com tamanho de 2 a 6 bytes.

O UTF-8 � completo (armazena qualquer caractere Unicode) e usa uma t�cnica de armazenamento que pode ser considerada �sofisticada�. Outros encodings, como ISSO-8859-1 e Windows-1252 s�o menos completos do que o UTF-8, e preferem trabalhar apenas com um subconjunto da tabela Unicode (ex: apenas com caracteres das linguagens ocidentais). Em compensa��o, podem fazer uso de t�cnicas de armazenamento mais simples que, al�m disso, conseguem representar strings gastando um n�mero menor de bytes.

Agora voc� j� sabe o que significa Unicode e sabe diferenciar Unicode de encoding! Este �, sem d�vida, um passo importante para come�ar a �perder o medo� de encarar esse tema (que reconhe�o � bem chato de se estudar!). Boa sorte e at� a pr�xima!