Artigo SQL Magazine 54 - Modelagem de um Sistema de Integra��o de Fontes de Dados Heterog�neas

Esse artigo faz parte da revista SQL Magazine edi��o 54. Clique aqui para ler todos os artigos desta edi��o

4 alt=imagem_pdf.jpg src="/imagens/imagem_pdf.jpg" width=34 border=0>

N>

Uma das caracter�sticas mais marcantes dos tempos atuais � o crescimento vertiginoso de dados dispon�veis para acesso via Web. Um dos fatores que mais contribui para esta explos�o � a facilidade que as pessoas encontram em publicar dados. Planilhas de custo, relat�rios de atividades, gr�ficos de produ��o s�o exemplos que mostram que n�o existem limites para as informa��es que podem ser compartilhadas. Mesmo usu�rios inexperientes podem rapidamente gerar p�ginas HTML, usando ferramentas intuitivas no estilo Wiki.

Dessa diversidade surge uma rede de informa��es, possivelmente relacionadas, espalhadas em diversos pontos e modeladas em diferentes formatos. O problema? Acessar todas essas fontes de dados de uma forma transparente, preferencialmente utilizando uma interface �nica de consulta. Esse � na verdade o objetivo primordial dos sistemas de integra��o de dados.

Sistemas deste tipo s�o usados em diversas �reas de interesse, tanto a n�vel mais cient�fico (como o acesso a bases de dados biol�gicas) quanto a n�vel mais geral (como as ferramentas de busca no estilo Google Desktop ou MSN Search).

Neste artigo, abordarei diferentes formas de modelar uma base de dados para que ela possa ser usada por um sistema de integra��o. Ao investigar o problema, tra�arei um paralelo com a modelagem orientada a objetos, salientando como ela pode contribuir para o caso aqui estudado.

Aplica��o de exemplo

Muitas pessoas recorrem � Web para procurar informa��es sobre filmes. E esse comportamento � plenamente justificado. Na Web, o dom�nio de filmes costuma ser um dos mais ativos. O site IMDB � um exemplo disso. Trata-se de um servi�o de consulta que permite descobrir diversas informa��es sobre um filme, como o seu elenco, o ano de lan�amento, curiosidades e filmes com tem�tica semelhante.

No entanto, apesar de possuir informa��es sobre um acervo de filmes gigantesco, a interface de consulta deixa a desejar. Por exemplo, n�o existe uma forma r�pida de descobrir quais filmes foram lan�ados em 1999, ou quais diretores atuaram com a produtora MGM.

Percebendo uma oportunidade de mercado, uma empresa decidiu lan�ar um novo servi�o de pesquisa por filmes com uma interface de consulta mais rica. A parte interessante do sistema � a forma como se alimenta a base de filmes. Ao inv�s de depender de recursos humanos para inserir os filmes na base, o sistema deve coletar essas informa��es automaticamente em p�ginas HTML na Web.

Para que um sistema desse porte seja constru�do, alguns m�dulos precisariam ser desenvolvidos, como o crawler e o wrapper. O papel do crawler � varrer a Web � procura de p�ginas HTML que tratem sobre filmes. J� o papel do wrapper � extrair as informa��es das p�ginas em um formato que facilite o seu processamento. No nosso caso, o wrapper deve extrair tabelas de dados a partir de p�ginas HTML.

Para o fim proposto neste artigo, os detalhes de implementa��o do crawler e do wrapper n�o s�o relevantes. Assim, vamos supor que eles j� existam, e que ap�s a sua execu��o a cole��o de tabelas indicada na Tabela 1 p�de ser extra�da.

Tabela A
titulo	ano	genero
Pulp Fiction	1994	Acao
Armageddon	1998	Ficcao
American Pie	1999	Comedia

Tabela B
titulo	ano	diretor
Pulp Fiction	1994	Tarantino
The Matrix	1999	Wachowski

Tabela C
...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por S�rgio Em 2008

Artigo SQL Magazine 54 - Modelagem de um Sistema de Integra��o de Fontes de Dados Heterog�neas

Neste artigo abordarei diferentes formas de modelar uma base de dados para que ela possa ser usada por um sistema de integra��o.

Confira outros conte�dos: