Artigo SQL Magazine 54 - Modelagem de um Sistema de Integra��o de Fontes de Dados Heterog�neas

Esse artigo faz parte da revista SQL Magazine ediç�o 54. Clique aqui para ler todos os artigos desta ediç�o

Clique aqui para ler esse artigo em PDF

Banco de dados

Modelagem de um Sistema de Integraç�o de Fontes de Dados Heterog�neas

Uma das caracter�sticas mais marcantes dos tempos atuais � o crescimento vertiginoso de dados dispon�veis para acesso via Web. Um dos fatores que mais contribui para esta explos�o � a facilidade que as pessoas encontram em publicar dados. Planilhas de custo, relat�rios de atividades, gr�ficos de produç�o s�o exemplos que mostram que n�o existem limites para as informaç�es que podem ser compartilhadas. Mesmo usu�rios inexperientes podem rapidamente gerar p�ginas HTML, usando ferramentas intuitivas no estilo Wiki.

Dessa diversidade surge uma rede de informaç�es, possivelmente relacionadas, espalhadas em diversos pontos e modeladas em diferentes formatos. O problema? Acessar todas essas fontes de dados de uma forma transparente, preferencialmente utilizando uma interface �nica de consulta. Esse � na verdade o objetivo primordial dos sistemas de integraç�o de dados.

Sistemas deste tipo s�o usados em diversas �reas de interesse, tanto a n�vel mais cient�fico (como o acesso a bases de dados biol�gicas) quanto a n�vel mais geral (como as ferramentas de busca no estilo Google Desktop ou MSN Search).

Neste artigo, abordarei diferentes formas de modelar uma base de dados para que ela possa ser usada por um sistema de integraç�o. Ao investigar o problema, traçarei um paralelo com a modelagem orientada a objetos, salientando como ela pode contribuir para o caso aqui estudado.

Aplicaç�o de exemplo

Muitas pessoas recorrem � Web para procurar informaç�es sobre filmes. E esse comportamento � plenamente justificado. Na Web, o dom�nio de filmes costuma ser um dos mais ativos. O site IMDB � um exemplo disso. Trata-se de um serviço de consulta que permite descobrir diversas informaç�es sobre um filme, como o seu elenco, o ano de lançamento, curiosidades e filmes com tem�tica semelhante.

No entanto, apesar de possuir informaç�es sobre um acervo de filmes gigantesco, a interface de consulta deixa a desejar. Por exemplo, n�o existe uma forma r�pida de descobrir quais filmes foram lançados em 1999, ou quais diretores atuaram com a produtora MGM.

Percebendo uma oportunidade de mercado, uma empresa decidiu lançar um novo serviço de pesquisa por filmes com uma interface de consulta mais rica. A parte interessante do sistema � a forma como se alimenta a base de filmes. Ao inv�s de depender de recursos humanos para inserir os filmes na base, o sistema deve coletar essas informaç�es automaticamente em p�ginas HTML na Web.

Para que um sistema desse porte seja constru�do, alguns m�dulos precisariam ser desenvolvidos, como o crawler e o wrapper. O papel do crawler � varrer a Web � procura de p�ginas HTML que tratem sobre filmes. J� o papel do wrapper � extrair as informaç�es das p�ginas em um formato que facilite o seu processamento. No nosso caso, o wrapper deve extrair tabelas de dados a partir de p�ginas HTML.

Para o fim proposto neste artigo, os detalhes de implementaç�o do crawler e do wrapper n�o s�o relevantes. Assim, vamos supor que eles j� existam, e que ap�s a sua execuç�o a coleç�o de tabelas indicada na Tabela 1 p�de ser extra�da.

Tabela A
titulo	ano	genero
Pulp Fiction	1994	Acao
Armageddon	1998	Ficcao
American Pie	1999	Comedia

Tabela B
titulo	ano	diretor
Pulp Fiction	1994	Tarantino
The Matrix	1999	Wachowski

" [...] continue lendo...

Artigo SQL Magazine 54 - Modelagem de um Sistema de Integra��o de Fontes de Dados Heterog�neas

Neste artigo abordarei diferentes formas de modelar uma base de dados para que ela possa ser usada por um sistema de integração.

Artigos relacionados