Um estudo sobre o XML Schema para documentos XML
André dos Santos Gomes
andretechf@yahoo.com.br
Instituto de Ensino Superior Fucapi (CESF)
Curso de Bacharelado em Análise de Sistemas
Resumo. A internet está em constante expansão a cada dia que passa, é cada vez maior o número de dispositivos que possibilitam o acesso a internet. O comércio eletrônico é um dos que mais impulsionam o crescimento. Portanto, o gerenciamento das informações é um desafio para o mundo de banco de dados e para auxiliar a estruturação e troca de dados na internet, foi desenvolvido a XML, que possui o objetivo de fornecer informação sobre a estrutura e o significado dos dados nas páginas web. Porém, faz-se necessário a utilização de abordagens para definição de estruturas. Este trabalho objetiva descrever uma das abordagens, o XML Schema.
Palavras-chave: bancos de dados semi-estruturados, XML, XML Schema.
Abstract. Internet has been expanding constantly day by day, and it is becoming even bigger the number of devices that enable people to access the internet.The eletronic commerce is one that most helps to increase it. However, the information management is a challenge for the data base world and in order to help to build up the data exchange through the internet, it has been developed the XML, which aims at providing information about the structure and meaning of tha data in web pages. Therefore,it is necessary to use the approaches to define the structure. This paper aims at describing one of these approaches: the XML Schema.
Keywords: semi-structured databases, XML, XML Schema.
1. Introdução
Flexibilidade e portabilidade são características que vêm fazendo com que, nos últimos anos, a eXtensible Markup Language (XML) seja aceita como um padrão para representação, intercâmbio e manipulação de dados em aplicações para as mais diversas áreas de negócios [2]. Representação de dados em aplicações de gerenciamento de conteúdo, aplicações de transações bancárias e de publicação de conteúdo em intranets são alguns exemplos de uso da XML. O crescimento na utilização da XML levou a um aumento significativo no volume de dados que são armazenados, transportados e recuperados nesse formato por aplicações no mundo todo.
A XML (Extensible Markup Language) tem demonstrado uma linguagem bastante adequada para representação e troca de dados e se estabelecendo como um padrão para representação de dados semi-estruturados. O armazenamento e acesso a estes dados pode ser facilitado quando se tem disponível uma estrutura que descreve estes dados. Processadores de consulta normalmente definem sua rota de acesso na recuperação dos dados baseados na estrutura que descreve estes dados.
Documentos XML podem ser legitimados contra estruturas específicas. Estas estruturas devem prever quais elementos são encontrados nos documentos, a ordem em que estes elementos podem aparcer, a hierarquização destes elementos, o tipo de dados do conteúdo destes elementos, entre outros. Determinadas abordaganes para definição de estruturas para documentos XML são o DTD (Document Type Definition) e o XML Schema que é uma alternativa do DTD [1].
O objetivo deste artigo é descrever os recursos da aborgadem XML Schema, mostrandos as vantagens e as definições.
Conceitos básicos sobre banco de dados semi-estruturados são apresentados na seção 2. Na seção 3 são abordados conceitos sobre XML. Na seção 4 são apresentadas as características da XML Schema.
2. Bancos Dados semi-estruturados
Dados armazenados em SGBDR’s (Sistemas Gerenciadores de Banco de Dados Relacionais) são considerados dados estruturados. O fator de maior relevância para a afirmação acima está relacionado à sua estrutura, a qual é definida antes do conhecimento dos dados (definição de esquema a priori). Portanto, espera-se pelo menos que os dados sigam um mesmo padrão, diferentemente dos dados semi-estruturados que não seguem. Os dados semi-estruturados, em sua maioria, possuem como características principais uma estrutura irregular, dinâmica e bastante heterogênea. Uma preocupação crescente entre pesquisadores na área de web semântica está relacionada a forma com que os dados da internet estão sendo disponibilizados. A linguagem XML vem se destacando como um mecanismo de fundamental importância e tornando-se a cada dia um padrão para manipulação de dados semi-estruturados [6].
Segundo [3], os dados semi-estruturados podem ser representados através de um grafo direcionado, conforme mostrado na Figura 1.

Figura 1. Representando dados semi-estuturados por meio de um grafo. Fonte: [3]
As características principais de dados semi-estruturados são [4]:
- Definição à posteriori: os esquemas de dados semi-estruturados são frequentemente definido após a existência dos dados, tomando como base uma análise de suas estruturas particulares e da análise de similaridades e diferenças. Porém, não significa que exite um esquema associado a um dado semi-estruturado.
- Estrutura irregular: conjunto de dados sematicamente similares estão dispostos de maneiras diferentes, podendo algumas ocorrências terem informações incompletas ou adicionais em relação a outras. Um exemplo bem comum é o curriculum vitae, que possui informações particulares para cada pessoa, não seguindo um padrão.
- Estrutura implícita: na maioria das vezes existe uma estrutura básica pré-definida para os dados, porém, essa estrutura está implícita na forma como os dados são apresentados. Se faz necessário realizar uma computação para obter essa estrutura.
- Estrutura extensa: a ordem de magnitude de uma estrutura para estes dados é grande, uma vez que os mesmos são muito heterogêneos. Supondo diferentes formatos para um curriculum vitae, uma união de atributos significativos em cada formato pode produzir um esquema extenso;
- Estrutura evolucionária: a estutura de dados está em constate mudança de seus valores. Dados da Web apresentam este tipo de comportamento, uma vez que existe o interesse em manter dados sempre atualizados. Um exemplo é um portal de notícias, que possui informações atualizadas constantemente.
- Distinção entre estrutura e dados não é clara: como a estrutura está embutida na descrição dos dados, muitas vezes a distinção lógica entre estrutura e valor não é clara. Pode-se ter, por exemplo, um endereço representado como um valor atômico em uma ocorrência de dado (string) ou como um tipo definido pelo usuário (com atributos rua, número e complemento) em outra ocorrência. Esta característica torna mais complicado o projeto de um BD para tais dados.
As características de dados semi-estruturados diferem bastante das características de dados mantidos em BDs tradicionais, como BDs relacionais. A tabela 1 apresenta estas diferenças.
|
Dados tradicionais |
Dados semi-estruturados |
...
Exibição do post interrompida. Para ler conteúdo completo,
clique aqui