Strings: Clube Delphi 120

Do que trata o artigo

Este artigo trata sobre Strings, como funcionam, do que s�o formadas, as mudan�as que houve e como podemos fazer para migrar para o novo Delphi. Contaremos uma breve hist�ria sobre as mudan�as ocorridas desde o Delphi 3 e daremos alguns exemplos.

Para que serve

Programas feitos em Delphi 2010 que usam bibliotecas/dll�s feitas em Delphi 7 n�o v�o funcionar, devido a problemas relativos ao tamanho e organiza��o dos dados. O mesmo se aplica a programas feitos em Delphi 7 utilizando bibliotecas compiladas em Delphi 2010.

Em que situa��o o tema � �til

O tema � �til tanto para migra��o de aplica��es para a nova vers�o do Delphi como tamb�m para compatibiliza��o com bibliotecas legadas. Tamb�m ser� �til como uma introdu��o ao Unicode e a primeira etapa para a globaliza��o de sua aplica��o.

Resumo do DevMan

Se ao usar uma dll legada com o novo Delphi voc� recebeu uma mensagem de Access Violation ou at� viu algumas Strings suas corromperem-se com caracteres inv�lidos e ileg�veis isso aconteceu por causa do novo formato de Strings. Vamos explicar detalhadamente o que mudou, o que voc� pode fazer e at� onde voc� pode chegar com as novas caracter�sticas do Delphi. Al�m disso, seremos introduzidos ao Unicode e suas possibilidades. Criaremos exemplos com dll�s que imitam situa��es da vida real e solucionaremos alguns dos problemas mais comuns.

Strings s�o um dos maiores avan�os na programa��o. Elas abstraem sequ�ncias de caracteres que formam palavras e frases, e nos permitem trabalhar com essas sequ�ncias de forma transparente, sem a necessidade de trabalhar com vetores de caracteres.

Infelizmente n�o h� um padr�o na implementa��o de Strings entre as v�rias linguagens e frameworks. Enquanto no C++ as strings s�o ponteiros para vetores de caracteres com tamanho vari�vel e terminadas em null, as Strings no Delphi s�o ponteiros para estruturas contendo informa��es sobre comprimento, contagem de refer�ncias e o vetor de caracteres propriamente dito.

J� os caracteres sempre foram caracteres, e sua implementa��o sempre foi padr�o, certo? Errado. Ao longo dos anos a defini��o de caracteres tamb�m sofreu mudan�as. Algumas linguagens sofreram a mudan�a cedo, outras sofreram essa mudan�a mais tarde. Algumas linguagens j� nasceram com o conceito de caractere Unicode. O Delphi vem preparando o terreno para essa mudan�a desde a vers�o 3.

Os caracteres que conhecemos e estamos acostumados s�o os caracteres ASCII, caracteres formados por apenas 1 byte que podem assumir 256 valores diferentes. Na tabela ASCII encontramos, do 0 ao 127 (caracteres formados por apenas 7 bits) os caracteres de controle (enter, tab, backspace entre outros), as letras mai�sculas, min�sculas, n�meros e s�mbolos. Dos valores 128 a 255 podemos encontrar a parte �estendida� do ASCII, que abrange cedilha e vogais acentuadas, mas que pode variar de acordo com a linguagem e o pa�s. Esses s�o os caracteres de um byte que us�vamos no Turbo Pascal e que continuamos usando at� antes do Delphi 2009. Nossas Strings, Chars e PChars eram baseados nesses caracteres.

Desde o Delphi 3 existiam as WideStrings, formadas por WideChars. Os WideChars eram caracteres formados por dois bytes cada um, que poderiam assumir 65536 valores, podendo conter uma gama maior de caracteres, incluindo caracteres de l�ngua estrangeira.

O Delphi 2005 j� permitia que o c�digo fonte fosse salvo em utf-8, e o Delphi 2007 j� possu�a drivers para dbExpress que funcionavam com Unicode. Al�m disso, desde o Delphi 6 era poss�vel usar Unicode gra�as aos componentes TNT, um conjunto de controles como os da VCL que, usando WideStrings, permitia a entrada de caracteres de v�rias linguagens.

O que � Unicode

Unicode � um cons�rcio ou acordo mundial cujo objetivo � criar padr�es para suportar m�ltiplos caracteres e linguagens nos computadores e softwares.

As 128 posi��es �altas� do ASCII simplesmente n�o funcionariam, porque h� linguagens que necessitam de mais caracteres do que os 128 restantes, al�m de s�mbolos de pontua��o e outros s�mbolos usados em matem�tica e filosofia. Al�m disso, o n�mero de padr�es diferentes para a parte �alta� do ASCII criou sim uma despadroniza��o.

Existem v�rios �sabores� de implementa��o de Unicode, s�o os chamados Unicode Transformation Format (Formato de Transforma��o Unicode) ou UTF. Os padr�es de UTF s�o: UTF-7, UTF-8, UTF-16, UTF-32. Os padr�es UTF-16 e UTF-32 podem ainda ser Big Endian ou Litle Endian, referindo-se � orienta��o que um caractere composto por v�rios bytes deve ser lido: a partir da direita ou a partir da esquerda.

O UTF-7 faz parte de um conjunto de formatos obsoletos ou que tiveram de ser criados para necessidades espec�ficas, mas n�o fazem parte do padr�o.

O UTF-32 � o que desperdi�a maior espa�o, visto que todos os caracteres s�o formados por 4 bytes, de largura fixa, mesmo os �baixos� #0 at� #127 compat�veis com ASCII. Apesar disso, o UTF-32 � o que apresenta a maior facilidade de conter todos os tipos de caracteres, de qualquer linguagem do mundo com nenhum processamento para isso. O UTF-32 � muito usado no mundo UNIX.

J� no padr�o UTF-16 todos os caracteres t�m 16 bits, ou 2 bytes. Isso nos daria a possibilidade de trabalharmos com at� 65536 caracteres, o que representa apenas uma fra��o dos caracteres existentes no mundo inteiro. Felizmente o UTF-16 � expans�vel: ele permite caracteres de tamanho vari�vel (podendo ter ou dois ou quatro bytes) com o uso de caracteres compostos e Surrogate Pairs, como veremos mais a frente. Uma desvantagem � que caracteres do #0 ao #255, de apenas um byte, ser�o representados por dois bytes: um id�ntico ao que era na tabela ASCII e o outro ser� um #0. O UTF-16 � o mais usado nas APIs dos sistemas operacionais, m�quinas virtuais JAVA, .Net Framework e por isso foi adotado para o Delphi.

O UTF-8 � o mais vers�til, compacto e o mais usado na WEB. No UTF-8 um caractere pode ter 1, 2 ou at� 4 bytes, dependendo de alguns valores �de corte� dos bytes menos significativos (mais a esquerda). Por exemplo, um caractere de #0 at� #127 � representado por 1 byte, do #128 at� o #2047 passa a ser representado por 2 bytes, do #2048 at� o #65535 passa a ser representado por 3 bytes e do #65536 em diante passa a ser representado por 4 bytes. O UTF-8 n�o apresenta os problemas de desperd�cio de espa�o com caracteres nulos que o UTF-16 e o UTF-32 apresentam.

No Delphi 2010 trabalharemos com os caracteres no formato UTF-16. Isso porque tanto o Delphi como a API do Windows podem trabalhar com WideStrings. O mapeamento de caracteres de 16 bits para WideStrings �, al�m de mais f�cil, natural e transparente. O UTF-16 desperdi�a menos espa�o que o UTF-32, tamb�m pode ser expans�vel e o Delphi possui o tipo de String UTF8String e o Encoding UTF-8 caso seja necess�rio salvar arquivos nesse formato.

Por ser mais usado, o UTF-16 geralmente � chamado simplesmente de Unicode, inclusive no pr�prio Delphi e no .Net Framework, mas como vimos, Unicode vai muito al�m disso.

O que mudou

Com as mudan�as uma coisa que n�o existe mais � o conceito de caractere. Pelo menos n�o como o conhecemos. Isso porque em um ambiente Unicode os conceitos que trabalhamos s�o o de Code Unit e Code Point, ou �unidade de c�digo� e �ponto de c�digo� em uma tradu��o livre e literal.

Al�m disso, temos os chamados Surrogate Pairs. Um Surrogate � um tipo de caractere, utilizado em algumas linguagens, que altera ou substitui um grupo de dois caracteres. Um Surrogate Pair com certeza tem mais de 2 bytes. Al�m disso, devido � diversidade de linguagens e regras lingu�sticas agora suportadas, tamb�m existe o conceito de caractere composto. Este pode ter o tamanho de dois caracteres, ou seja, 4 bytes, mas ser exibido como um caractere s�. S�o dois caracteres visualizados como um.

Neste artigo precisaremos de alguma vers�o do Delphi anterior � 2009, por exemplo, o popular Delphi 7, e precisaremos tamb�m de uma vers�o mais nova, como o Delphi 2010. Criaremos, em ambas as vers�es, um programa Win32 simples, que cont�m um Form, um Memo ocupando quase todo o tamanho do Form e um espa�o para colocarmos bot�es. Nos bot�es faremos testes e imprimiremos mensagens no Memo. Depois de feitos alguns testes, vamos criar no Delphi 7 uma dll com m�todos cujos argumentos s�o PChars, a serem lidos/escritos dentro da dll, e tentaremos usar essa dll no Delphi 2010. Nosso programa de teste, a ser feito tanto no Delphi 7 como no 2010 ser� como mostra a ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO

Desbloqueie toda a DevMedia

+2000 artigos e v�deos

+40 trilhas sobre Front-end, Back-end, IA e muito mais

+5000 exerc�cios pr�ticos

Mentorias ao vivo individuais

at� 50% OFF

A partir de

R$ 69 /m�s
Assinar agora

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Instalando o ACBr

Mapeamento Objeto-Relacional com TMS...

Introdu��o aos componentes JEDI

Por Vitor Em 2010

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Compartilhe esse conte�do com um amigo!
Fa�a login para ganhar recompensas.
Copie o link e envie para seus amigos
Ou

Strings - Clube Delphi 120

Este artigo trata sobre Strings, como funcionam, do que s�o formadas, as mudan�as que houve e como podemos fazer para migrar para o novo Delphi. Contaremos uma breve hist�ria sobre as mudan�as ocorridas desde o Delphi 3 e daremos alguns exemplos.

Desbloqueie toda a DevMedia

Confira outros conte�dos: