SQL Server: Trabalhando com codificação de texto e collations

Por que eu devo ler este artigo:Este artigo apresenta uma vis�o detalhada sobre o que � �collation� no SQL Server e como o mesmo interfere na representa��o de textos. Ser�o apresentados os conceitos de codifica��o de texto e internacionaliza��o, que s�o a base para o entendimento do assunto, incluindo o padr�o Unicode e as defini��es, regras e t�cnicas. Collations s�o implicitamente usados a todo momento. Toda vez que � necess�rio transferir texto entre o SQL Server e uma aplica��o, � necess�rio tratar diversas quest�es relacionadas � representa��o e processamento do mesmo. Desenvolvedores precisam frequentemente estar preparados para lidar com eventuais perdas de informa��es que as convers�es de texto podem ocasionar, e o SQL Server fornece um amplo suporte, atrav�s dos collations, para o correto transporte e armazenamento do dado. Todos os exemplos e demonstra��es usados s�o compat�veis com a vers�o 2005 do SQL Server ou posterior.

O texto que se observa na tela do computador � composto de v�rias partes menores chamadas caractere, sendo essa a menor unidade de um texto. Textos tamb�m s�o chamados de �strings�. Em uma tradu��o r�pida, �string� seria algo como �corda�, pois essa � a ideia de um texto: uma sequ�ncia de caracteres ligados por uma esp�cie de corda invis�vel.

O caractere que � visto na tela do computador � apenas um conjunto de pontos sendo desenhados pelo monitor, coordenado pelos dispositivos de v�deo e, � claro, um software. O software orienta o dispositivo baseado no caractere que precisa exibir. O mesmo vale para outros dispositivos, como impressoras.

Computadores, devido � natureza dos componentes que os constituem, s�o capazes de processar e armazenar apenas n�meros. Isso significa que cada caractere � armazenado na mem�ria ou no disco como um n�mero, especificamente como um ou mais bytes, assim como qualquer outro dado no computador, como v�deos, imagens, etc. Um texto � composto por v�rios caracteres, o que significa dizer que um texto � composto por uma sequ�ncia de bytes.

O que � visto na tela do computador, ou na sa�da de uma impressora, s�o os glifos. Os glifos est�o definidos em uma cole��o de glifos chamada fonte, sendo que cada fonte permite que o caractere seja exibido em estilos diferentes. Baseado no byte (um n�mero) que representa um caractere, o computador encontra o glifo associado e orienta o dispositivo sobre como desenh�-lo. Assim, armazenar, ler e transferir textos requer somente a manipula��o dos bytes que os representam, e a exibi��o dos mesmos fica por conta das fontes instaladas nos computadores onde o texto est� sendo manipulado.

A representa��o de textos come�a neste ponto, onde a primeira d�vida que surge �: qual � o caractere que um determinado n�mero representa? Ent�o, na representa��o de textos, a primeira coisa que se precisa definir � um mapeamento entre um n�mero e um caractere, como uma letra min�scula ou um sinal de pontua��o. Para compreender collations, � necess�rio entender como os caracteres s�o representados e o que � ASCII, CODE PAGES e UNICODE. A melhor maneira de se compreender esses termos � voltando no tempo e observando como tudo come�ou.

Nos prim�rdios da computa��o, cada fabricante de software ou computador determinava seu pr�prio mapeamento. Quando os computadores come�aram a se comunicar, isso se tornou um grande problema. Por exemplo, suponha que o software A usasse os n�meros 1, 2, 3, 4 e 5 para representar os caracteres A, E, I, O e U, respectivamente, e que o software B usasse 5, 4, 2, 1 e 3 para A, E, I, O e U, respectivamente. Se o software A quisesse mandar a mensagem �OI� para o software B, ent�o ele mandaria a sequ�ncia de n�meros 4 (�O�) e 3 (�I�). O software B, ao receber a sequ�ncia �4 3�, iria exibir a mensagem �EU�, pois, para B, 4 � �E� e 3 � �U�. Era necess�rio criar um padr�o que todos os fabricantes de software e hardware pudessem seguir, e assim garantir que os textos fossem exibidos corretamente.

Por volta de 1960, Bob Bemer, funcion�rio da IBM na �poca, percebeu que havia a necessidade de se estabelecer um padr�o para troca de informa��es entre computadores. Ent�o, ele prop�s isso � American Standards Association (ASA, que futuramente se tornaria a American National Standards Institute, a ANSI). A partir de um comit� criado pela ASA, nasceu o American Standard Code for Information Interchange, ou o famoso ASCII, que � usado at� hoje.

O ASCII mapeou 128 caracteres em uma tabela conhecida como tabela ASCII e, para cada caractere, determinou um n�mero que o representava, onde o primeiro n�mero era 0 e o �ltimo era 127. Por exemplo, a letra �A� (a mai�sculo) � representada pelo n�mero 65, enquanto que o espa�o � representado pelo n�mero 32. H� outros caracteres de controle, que faziam mais sentido para �poca devido aos equipamentos em que eram usados (o ASCII n�o foi criado somente para computadores). Dessa forma, os fabricantes podiam implementar seus softwares baseados nesse padr�o, e a troca de texto entre softwares que seguissem o padr�o ASCII funcionaria corretamente.

No exemplo anterior, se o software A mandasse a mensagem �OI� para o software B, ele iria mandar a sequ�ncia de n�meros 79 (equivalente a �O�) seguido do n�mero 73 (o �I�). Ao receber a mensagem, o software B precisava encontrar na tabela ASCII qual era o caractere associado aos n�meros 79 e 73. Como ambos os softwares usavam a mesma tabela (o mesmo padr�o), os caracteres eram exibidos corretamente.

Code Pages e Character Sets

O padr�o ASCII mapeou somente 128 caracteres, que para o Ingl�s era suficiente. Esses 128 n�meros cabiam em apenas 7 bits (n�meros de 0 a 127), por�m os computadores da �poca j� eram capazes de trabalhar com oito bits (um byte), o que permitia 256 n�meros serem utilizados, isto �, o dobro de 128. Assim, os 128 ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Por Rodrigo Em 2016

<Formação completa Programador FullStack/>

Conteúdo Front-end, Back-end e Mobile
Plano de estudo linear
+10 mil exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Suporte 365 dias do ano
12 meses de acesso

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso