Aten��o: por essa edi��o ser muito antiga n�o h� arquivo PDF para download.
Os artigos dessa edi��o est�o dispon�veis somente atrav�s do formato HTML.

Clique aqui para ler todos os artigos desta edi��o

Entrevista � Marta Mattoso

1) Voc� atua na �rea de banco de dados na COPPE desde 1984. Como tem sido a evolu��o desse trabalho?

A linha de banco de dados do Programa de Sistemas e Computa��o da COPPE foi fundada em 1977. Desenvolvemos um SGBDR ao longo da d�cada de 80, o COPPEREL, projetado pelo Prof. Jano Moreira de Souza, atual coordenador da linha de banco de dados. Em seguida, partimos para o desenvolvimento de um banco de dados orientado a objetos, o GOA, que teve sua primeira vers�o em 1994. Ele est� operacional at� hoje, sendo objeto de estudo e desenvolvimento de diversas teses. Hoje trabalho com XML e Web Services junto a SGBDs.

2) Quais linhas de pesquisa voc� coordena atualmente ?

Coordeno projetos na �rea de distribui��o e paralelismo em banco de dados e na �rea de bioinform�tica.

3) O que significa distribui��o na �rea de banco de dados?

� uma cole��o de diversas bases de dados, interligadas logicamente atrav�s de uma rede de computadores. Cada base � instalada em um n� da rede e as tabelas s�o fragmentadas e distribu�das entre essas bases. Toda a distribui��o deve funcionar de forma transparente, dando a impress�o ao usu�rio de que o banco de dados est� unificado.

O objetivo dessa arquitetura � reduzir o volume de dados em aplica��es que possuem uma estrutura descentralizada, como companhias a�reas, redes de lojas, cadeias de hot�is, entre outras.

4) Na pr�tica, o que significa fragmentar uma tabela?

Significa dividir uma tabela por linhas, que � o fragmento horizontal, ou por colunas, que � o fragmento vertical. Por exemplo, numa tabela de cem mil registros, podemos armazenar cinq�enta mil registros em um ponto da rede e cinq�enta mil em outro ponto. Isso � uma fragmenta��o horizontal. Na fragmenta��o vertical podemos armazenar as colunas mais usadas em um ponto e as menos relevantes em outro ponto.

N�o � f�cil decidir como as tabelas devem ser fragmentadas e alocadas. O objetivo � que os usu�rios de cada n� manipulem o menor volume de dados e que os fragmentos fiquem o mais pr�ximo poss�vel de seus usu�rios potenciais.

Um problema comum � quando alguns pontos de rede compartilham um mesmo fragmento de tabela. Nesse caso, a solu��o menos custosa � fazer a replica��o do fragmento entre os pontos. No entanto, quando o fragmento for compartilhado por muitos n�s em processos de altera��o, a replica��o n�o � indicada pois o custo para manter a consist�ncia ser� muito alto.

Essas decis�es s�o um grande desafio para o projetista. Nosso projeto de pesquisa prop�e metodologias para que se determine passo a passo a melhor op��o para a distribui��o do banco de dados.

5) Ent�o � favor�vel que as tabelas sejam usadas mais para consulta do que para altera��o?

A distribui��o � ideal quando os dados compartilhados s�o usados apenas para leitura. As atualiza��es s�o problema quando precisam de replica��o ou n�o s�o restritas a fragmentos isolados. Atualiza��es que ocorrem em v�rios fragmentos de uma vez s�o muito custosas para o sistema, pois a quantidade de controle necess�rio para garantir a consist�ncia � muito grande.

6) Qual o tipo de fragmenta��o mais comum?

Hoje, a maioria dos SGBDs que oferecem recursos de distribui��o se restringem � fragmenta��o horizontal. A fragmenta��o vertical, em geral, deve ser implementada pelo pr�prio projetista. Mesmo assim vale a pena definir fragmentos verticais, tendo em vista o desempenho que pode ser obtido.

7) Quais as vantagens e desvantagens da distribui��o?

A vantagem � o aumento de desempenho e a confiabilidade atrav�s da replica��o. A principal desvantagem � a complexidade dos controles de integridade e consist�ncia da base de dados como um todo. Por exemplo, � necess�rio gerenciar c�pias m�ltiplas, falhas locais em n�s, falha nas liga��es de comunica��o, commit distribu�do e deadlocks distribu�dos.

8) Fale um pouco sobre o projeto ClusterMiner.

O ClusterMiner � financiado pelo CNPQ, dentro do programa de Tecnologia da Informa��o. A id�ia desse projeto � trabalhar com t�cnicas de data mining em bancos de dados que utilizam paralelismo.

9) O que � paralelismo em banco de dados?

Assim como a distribui��o, o paralelismo visa o aumento de desempenho. A id�ia � espalhar os dados por todos os pontos da rede e fazer processamento em paralelo. Por exemplo, um �nico comando SQL, que varre cinco milh�es de registros, pode ser executado em cinco processadores ao mesmo tempo. Dessa forma, o tempo de resposta da consulta pode cair pela quinta parte. � a id�ia de um cluster de bancos de dados.

10) Na pr�tica, que tipo de aplica��o precisa dessa tecnologia?

O paralelismo vem sendo usado e � inevit�vel no projeto Genoma, por exemplo. Uma das �reas do projeto ClusterMiner trata de aplica��es para o Genoma.

11) De que maneira voc�s est�o trabalhando com paralelismo na UFRJ?

A COPPE possui uma �rea interdisciplinar em Computa��o de Alto Desempenho, que desde 1998 possui m�quinas paralelas. Estamos desenvolvendo uma camada de paralelismo, para que o desenvolvedor possa migrar sua aplica��o do modelo serial para o modelo paralelo com o m�nimo de altera��o no c�digo-fonte e na base de dados. Se voc� compra um pacote do fabricante do SGBD para trabalhar com paralelismo, ter� que mudar o esquema, regerar a base e fazer algumas mudan�as na aplica��o. Al�m disso, esse m�dulo � um adicional que geralmente custa muito caro. Temos trabalhado para fazer o paralelismo fora do SGDB e tornar essa migra��o transparente para o desenvolvedor.

12) O conceito de paralelismo em bancos de dados � recente?

N�o. No in�cio da d�cada de 80 j� havia pesquisas nesse sentido, s� que elas abordavam o desenvolvimento de hardware espec�fico para o processamento paralelo. Eram as chamadas �m�quinas SQL�. Algumas empresas chegaram a investir nesse segmento naquela �poca, como a Teradata Corporation e a Tandem Computers.

A id�ia de bancos de dados paralelos baseados em hardware propriet�rio foi descartada. Hoje em dia, com o baixo custo dos clusters de PCs, qualquer um pode implementar um sistema de alta capacidade.

13) A COPPE � uma institui��o renomada e a cada ano in�meras pessoas tentam ingressar nos cursos de p�s-gradua��o dentro da �rea de inform�tica. A concorr�ncia para as vagas tem sido grande?

Sim a concorr�ncia � grande e aumenta a cada ano. Nosso processo de sele��o j� est� aberto e tem duas etapas. A primeira � baseada no exame nacional do POSCOMP, na an�lise da forma��o e experi�ncia do candidato, e nas cartas de recomenda��o. A segunda etapa � uma entrevista com os professores da linha de pesquisa onde o candidato manifestou interesse.