Artigo SQL Magazine 10 - Explorando visualmente informa��es em grandes bases de dados utilizando a ferramenta FMDB

Aten��o: por essa edi��o ser muito antiga n�o h� arquivo PDF para download.
Os artigos dessa edi��o est�o dispon�veis somente atrav�s do formato HTML.

Clique aqui para ler todos os artigos desta edi��o

Explorando visualmente informa��es em grandes bases de dados utilizando a ferramenta FMDB

�

Um dos objetivos das organiza��es que utilizam sistemas computacionais � armazenar os dados coletados para que eles sejam utilizados em seus procedimentos. O problema � que muitas empresas acreditam que apenas armazenar esses dados lhes garante toda a informa��o necess�ria. Entretanto, muitos dos dados guardados s�o sub-utilizados, e na maioria das vezes nunca mais ser�o acessados.

Como modeladores e gerentes de bases de dados, � importante que n�s analisemos esse panorama: esfor�o humano e gasto em armazenamento para coletar e guardar um volume crescente de dados que na maioria n�o ser�o utilizados novamente. O problema n�o est� em guardar esses dados, que de fato ocultam muita informa��o �til mas sim, em n�o termos mecanismos apropriados para analis�-los. Da� a necessidade de utiliza��o de t�cnicas automatizadas, ou ao menos semi-automatizadas que possibilitem recuperar informa��es relevantes.

Algumas an�lises podem ser obtidas nos sistemas de gerenciamento de bancos de dados (SGBDs) atrav�s de consultas SQL. Um exemplo t�pico �: �Quais s�o os produtos vendidos em uma concession�ria de ve�culos que realizaram uma margem de lucro acima de 30%?�.

Por outro lado, se o interesse do gerente da concession�ria � saber qual o relacionamento entre as vendas de diferentes produtos, outros tipos de consultas deveriam ser feitas. Exemplificando, constata��es do tipo: �Quando o cliente troca o filtro de gasolina, existe uma probabilidade de 80% dele tamb�m trocar o filtro de ar�, poderiam ser levantadas se as tabelas de dados fossem exploradas por procedimentos estat�sticos de an�lise. Complicando um pouco mais, uma informa��o realmente estrat�gica para a empresa seria descobrir quais s�o todos os pares de produtos que freq�entemente (mas nem sempre) s�o comprados juntos, ou melhor, com poucos dias de separa��o entre uma compra e outra. Veja que � poss�vel existir muitos pares que ocorrem com freq��ncia sem que seja intuitivo descobri-los. Embora essa informa��o esteja na base de dados, ela est� ocultada pelo grande volume de dados armazenados, e desenvolver um procedimento de an�lise para identific�-la n�o � uma tarefa trivial.

Neste contexto, esse artigo apresenta uma ferramenta para explora��o visual de dados denominada FMDB (FastMap in Databases).

A Ferramenta FMDB

O FMDB � uma ferramenta para explora��o visual de dados que utiliza a t�cnica FastMap para efetuar o mapeamento entre itens de dados quaisquer (espaciais, categ�ricos ou mesmo m�tricos) para um espa�o euclidiano (ver nota 1). Para isto, � necess�rio que haja uma fun��o de dist�ncia (ver nota 2) definida sobre esses dados. No entanto, nem todo espa�o � euclidiano, o que implica na necessidade de mapeamento. Por exemplo, se voc� estiver numa cidade em que todas as ruas s�o quarteir�es, a dist�ncia mais pr�xima para ir a algum lugar a partir de onde voc� est� n�o � um caminho reto, mas a soma de cada trecho caminhado. Outro exemplo � quando uma coordenada n�o tem valores cont�nuos, mas discretos, como o cargo de funcion�rios de uma empresa (s�o atributos categ�ricos).�

�

Nota 1

Um espa�o euclidiano � aquele que estamos acostumados, com tr�s dimens�es � altura, largura e profundidade � e onde a dist�ncia mais curta entre dois pontos � um caminho reto.

�

Nota 2

A fun��o de dist�ncia � respons�vel por calcular qu�o semelhantes s�o dois objetos atrav�s da an�lise de seus atributos e, a partir deste c�lculo, gerar uma dist�ncia no espa�o euclidiano entre eles. Os atributos utilizados pela fun��o de dist�ncia podem ser quaisquer dados: num�ricos (cont�nuos ou discretos), datas (considerando a contagem de dias a partir de uma data-refer�ncia), dados similares (por exemplo, que cargo � mais parecido: um gerente e um diretor, ou um gerente e um manobrista?) ou textuais (considerando a fun��o Ledit, a qual indica o n�mero m�nimo de caracteres inseridos, removidos ou substitu�dos para transformar uma palavra em outra. A diferen�a entre �gato� e �rato� � um, pois a troca de uma letra muda uma em outra, e a diferen�a entre gato e garfo � dois, pois troca-se uma letra e insere-se outra). Por exemplo, uma fun��o de dist�ncia que envolva os atributos {pre�o, c�digo} usa a diferen�a entre o valor num�rico de pre�o e a diferen�a Ledit de c�digo para definir qu�o diferentes s�o dois dados armazenados. Estes dados ainda podem ser ponderados, normalizados, e/ou utilizados em escala linear ou logar�tmica. A fun��o de dist�ncia criada � ent�o utilizada para indicar o relacionamento entre os itens de dados, guiando a gera��o de um gr�fico em tr�s dimens�es.

�

Suponha que voc� queira verificar se existe uma tend�ncia entre o tempo de perman�ncia de um empregado na empresa e seu sal�rio. Como o tempo de perman�ncia e o sal�rio s�o n�meros cont�nuos, voc� pode tra�ar a curva de tempo de perman�ncia versus sal�rio, e provavelmente vai perceber que com o aumento do tempo, o sal�rio tende a aumentar. E se voc� quiser ver o relacionamento entre sal�rio e cargo? Como cargo n�o � um valor cont�nuo (mas categ�rico), o m�ximo que se pode fazer � tra�ar gr�ficos de barras, tortas etc. Mas, e se voc� quiser cruzar isso com o tempo de perman�ncia? E com outros fatores? O objetivo do FMDB � justamente imaginar que cada atributo pode ser tratado como uma coordenada em algum espa�o e mapear esse espa�o para um espa�o euclidiano tri-dimensional. Com isso podemos usar nossa habilidade de interpreta��o visual para analisar os dados que as empresas armazenam e descobrir, minerar visualmente, a informa��o oculta. Assim, o FMDB permite ao analista perceber como os itens de dados est�o relacionados, quais s�o os padr�es envolvidos e detectar agrupamentos e elementos de exce��o.

�

Nota

O FMDB est� sendo desenvolvido em uma parceria entre o Laborat�rio de Bases de Dados e Imagens (GBdI) coordenado pelo Prof. Caetano Traina Jr. do Departamento de Ci�ncias de Computa��o e Estat�stica da USP no Campus de S�o Carlos, SP; e o Database Group coordenado pelo Prof. Christos Faloutsos da Carnegie Mellon University, em Pittsburgh, Pennsylvania, nos EUA.

Visualiza��o de Dados

A ferramenta FMDB utiliza a t�cnica FastMap, proposta originalmente pelo Prof. Faloutsos (Faloutsos & Lin 1995), que efetua o mapeamento entre itens de dados quaisquer (espaciais, categ�ricos ou mesmo m�tricos) para um espa�o euclidiano (visual), desde que haja uma fun��o de dist�ncia definida sobre esses dados.

�

Nota

A t�cnica FastMap foi apresentada � comunidade cientifica em� Faloutsos, C. and K.-I. D. Lin (1995). FastMap: A Fast Algorithm for Indexing, Data Mining and Visualization of Traditional and Multimedia Datasets. ACM International Conference on Data Management (SIGMOD), San Jose, CA, ACM Press. Vale destacar que a SIGMOD (Special Interest Group in Management Of Data) � a principal confer�ncia em banco de dados da ACM (Association for Computing Machinery).

�

Na ferramenta FMDB, o algoritmo FastMap � utilizado de maneira que um dado conjunto de informa��es n-dimensional, onde n � o n�mero de atributos da tabela, tenha seu n�mero de dimens�es reduzido para 3, garantindo que cada dimens�o resultante seja cont�nua. De maneira geral, a utiliza��o b�sica da ferramenta FMDB corresponde � execu��o dos seguintes passos:

�

1- Escolher uma base de dados relacional;

2- Definir as tabelas da base que ser�o utilizadas no processo de an�lise;

3- Selecionar os atributos que ir�o compor a visualiza��o;

4- Definir os par�metros da visualiza��o (cores etc.);

5- Observar e interagir com a visualiza��o resultante.

�

Para exemplificarmos o uso da ferramenta, utilizamos dados de dom�nio p�blico que est�o dispon�veis em:

�

�� Machine Learning Repository da Universidade da Calif�rnia em Irvine (ftp://ftp.ics.uci.edu/pub/machine-learning-databases/breast-cancer-wisconsin) Neste local est�o dispon�veis diversos conjuntos de dados. Aqui utilizamos o conjunto BreastCancer, que guarda 11 atributos de exames de pacientes com suspeita de c�ncer de mama obtidos no Hospital Universit�rio da Universidade of Wisconsin, Madison.

�� C�mara dos Deputados: dados colhidos como resultado de 15 vota��es realizadas entre 20/03/2002 e 18/06/2002 pelos deputados federais no Congresso Nacional (http://www.camara.gov.br/internet/plenario - variando de lv1760 a lv1781). Deve-se escolher ��Resultado da vota��o eletr�nica e lista de presen�a� e depois escolher as vota��es de cada data desejada.

�

Para facilitar a cria��o dos exemplos os dois bancos de dados, no formato Paradox, est�o dispon�veis para download no site da revista.

A seguir percorreremos cada um dos 5 passos colocados acima, lembrando que se pode retornar aos passos anteriores a qualquer momento da execu��o do FMDB.

�

Figura 1. Interagindo com a janela principal do FMDB.

�

Passo 1 - Escolha de uma base de dados

A Figura 1 mostra a tela principal do FMDB. Ela guia o usu�rio na execu��o dos primeiros passos na utiliza��o da ferramenta. Inicialmente, uma lista das conex�es com bases de dados registradas no BDE ou ODBC � apresentada ao usu�rio (destaque 1 na Figura 1).

�

Passo 2 - Defini��o das tabelas da base que ser�o utilizadas

Depois que a base de dados � escolhida, uma lista de todas as suas tabelas � apresentada e uma tabela base � ent�o escolhida pelo usu�rio (destaque 2 na Figura 1), neste caso, a BreastCancer. A tabela base � aquela que centralizar� os processos de visualiza��o que ser�o efetuados. A partir dela, outras tabelas podem ser acessadas desde que tenham uma liga��o de chave estrangeira com ela (ou com outras j� ligadas), gerando uma tabela de trabalho denominada tabela operacional.

�

Passo 3 - Sele��o dos atributos para compor a visualiza��o

Neste passo, os atributos da tabela (dispon�veis no destaque 3 da Figura 1) s�o selecionados para fazerem parte do conjunto de atributos que devem ser usados para criar a visualiza��o (destaque 4 da Figura 1). Al�m de selecionar atributos da tabela base, tamb�m � poss�vel selecionar atributos resultantes de comandos �GROUP BY� usando sum, min, max, avg e count.

A ferramenta FMDB permite que o usu�rio prossiga incluindo tabelas adicionais para compor a tabela operacional que poder� ent�o ser mapeada/visualizada. A op��o de jun��o est� dispon�vel por meio do bot�o �Join tables� (destaque 5 da Figura 1).

�

Passo 4 - Defini��o dos par�metros da visualiza��o

Nesta ferramenta, cada linha da tabela base � representada atrav�s de um ponto. Neste passo o analista escolhe como (por exemplo, cor e formato) ele quer que os pontos representem os dados que sejam de seu interesse. Uma op��o interessante � escolher um dos atributos dispon�veis como �classificador� (destaque 6 da Figura 1), fazendo com que linhas pertencentes a diferentes classes sejam representadas em diferentes cores e formatos na visualiza��o.

Da mesma maneira, um atributo pode ser selecionado como refer�ncia para o tamanho dos pontos visualizados. Ou seja, tendo definido um atributo como base, o tamanho dos pontos na tela ir�o variar de acordo com diferen�a existente entre o atributo de um determinado ponto e o valor do atributo base. A escala de varia��o de tamanho � baseada no valor definido pelo usu�rio no campo �Maximum dot size� (destaque 7 da Figura 1).

Como o mapeamento dos objetos da base para o espa�o cartesiano � realizado atrav�s da distribui��o de dist�ncias entre os mesmos, � importante definir a fun��o de dist�ncia para os objetos e atribuir a cada atributo pesos variados. Isso � feito atrav�s dos controles marcados no destaque 8 da Figura 1. A tela principal mostra apenas o peso atribu�do a cada atributo selecionado. Clicando-se no peso de um dado atributo com o bot�o direito, abre-se uma janela espec�fica para tratar das op��es desse atributo (Figura 2). Atrav�s dessa janela, o usu�rio pode indicar que um atributo � mais importante do que outros, aumentando seu peso (destaque 1 da Figura 2), ou vice-versa. Tamb�m � poss�vel realizar outras opera��es sobre os valores de um determinado atributo, como por exemplo, compensar varia��es muito grandes das faixas de valores, trabalhando seu logaritmo (destaque 2 da Figura 2). A defini��o da fun��o de dist�ncia para os objetos � realizada conforme o destaque 3 da Figura 2. As op��es s�o as fun��es padr�o Euclidiana, Manhattan (que corresponde a dist�ncia em quarteir�es), dist�ncias de proje��es (Chebychev), ou mesmo fun��es definidas pelo usu�rio.

�

Figura 2. Janela de propriedades do atributo BARE_NUCLEI.

�

Passo 5 - Visualiza��o interativa do resultado

Terminado o passo 4, � poss�vel visualizar os dados por meio do bot�o �View� (destaque 5 da Figura 1). No exemplo da Figura 3 foram escolhidos 9 atributos dos 11 existentes. � importante ressaltar que, gra�as ao algoritmo FastMap, todos os atributos contribuem para a composi��o das 3 dimens�es finais, e neste exemplo onde o peso foi mantido igual a 1 para todos os atributos, os nove atributos contribuem da mesma maneira. Sem realizar redu��o de dimensionalidade, s� poder�amos visualizar 3 atributos por vez e n�o seria poss�vel ter uma id�ia global do conjunto de atributos sem utilizar c�lculos complexos e custosos.

A janela do m�dulo visualizador da ferramenta � mostrada na Figura 3. A visualiza��o gerada pode ser explorada e manipulada interativamente atrav�s de transla��o, rota��o e escala.

�

imagem �

Figura 3. Explorando a visualiza��o dos dados da tabela breastcancer.

�

O m�dulo visualizador � composto basicamente de duas apresenta��es: visualiza��o est�tica dos dados mapeados (janela 1 da Figura 3) e visualiza��o dos dados transformados pelo processo interativo (janela 2 da Figura 3). A primeira janela apresenta um cubo tridimensional que delimita os pontos mapeados mostrados na segunda visualiza��o. Atrav�s de movimentos de rota��o, transla��o e escala realizadas com o mouse sobre esse cubo, o usu�rio pode observar a nova disposi��o dos dados e assim analis�-los sob diferentes �ngulos, posicionamentos e aproxima��es.

A Figura 3 apresenta a visualiza��o dos dados de exames de pacientes com suspeita de c�ncer de mama do conjunto BreastCancer, considerando o atributo CLASS como classificador. A ferramenta atribui automaticamente uma cor e um formato de ponto para cada classe, e indica qual cor e formato representa cada classe na legenda �Classes� dispon�vel logo abaixo na janela de visualiza��o. Se quiser, o usu�rio pode clicar no bot�o �Customize� ao lado dessa janela e escolher outra cor ou formato para os pontos. A visualiza��o resultante permite a identifica��o de pelo menos um agrupamento bem definido, que � aquele dos exames que foram classificados como benignos (em vermelho na Figura 3), e podem ser usados para ajudar a classificar um novo resultado. Por exemplo, se mapearmos os resultados de um novo exame, j� poder�amos ter uma boa id�ia para classific�-lo como benigno ou maligno apenas olhando onde ele seria representado.

Em alguns casos � interessante identificar um determinado ponto ou subconjunto de pontos da visualiza��o, tal como obter a identifica��o do paciente correspondente a um determinado ponto no espa�o visualizado. Esta funcionalidade est� dispon�vel por meio do bot�o Select (destaque 1 da Figura 4).

�

Figura 4. Efetuando o mapeamento inverso a partir da visualiza��o.

�

Agora analisaremos o conjunto de dados referentes �s vota��es da C�mara dos Deputados realizadas entre 20/03/2002 e 18/06/2002, considerando apenas os deputados presentes. Aqui usamos o partido de cada deputado como o atributo classificador. Assim, cada deputado aparece como um ponto na cor e forma associada ao seu partido. Pelos resultados apresentados pelo FMDB, pode-se analisar quest�es como coes�o partid�ria e at� mesmo reconhecer quais deputados n�o est�o votando conforme a orienta��o de seus partidos.

Para gerar a visualiza��o mostrada na Figura 5, foi solicitado que se visualizasse somente os resultados de vota��es dos partidos PFL (elementos verdes), PSDB (elementos azuis) e PT (elementos vermelhos). Pode-se observar que grande parte dos congressistas petistas est� agrupada e separada dos congressistas pefelistas e psdbistas. Por�m, alguns petistas est�o mais afastados de seu grupo e h� mesmo at� alguns poucos que se comportam como os congressistas do PFL e PSDB. Note que essa figura � calculada geometricamente, utilizando uma express�o matem�tica que se baseia exclusivamente no voto que cada deputado deu para cada uma das 15 mat�rias votadas no per�odo em quest�o. N�o existe aqui nenhuma interfer�ncia proveniente de fatores subjetivos.

�

Figura 5. Explorando a visualiza��o dos dados da tabela Pol�ticosBR para os partidos �PT�, �PSDB� e �PFL�.

�

Como esta ferramenta � voltada fundamentalmente para a an�lise interativa dos dados, existem muitas op��es que o analista pode usar para explor�-los. Por exemplo, outros partidos pol�ticos poderiam ser escolhidos e comparados. Poder-se-ia dar pesos diferentes para cada um dos diversos assuntos votados, ou escolher outros conjuntos de leis, ou mesmo estabelecer regras para trabalhar com estat�sticas que envolvessem cada deputado e seu suplente, al�m de outras possibilidades. Pode-se tamb�m trabalhar com sub-conjuntos de pontos (deputados), e analisar cada grupo separadamente. Obviamente, cada um dos �pontos� pode ser identificado pelo nome do respectivo deputado.

�

Figura 6. Alterando dinamicamente a visualiza��o dos dados da tabela Pol�ticosBR para os Partidos �PT�, �PSDB� e �PFL�.

�

Entre outras op��es dispon�veis na ferramenta, � poss�vel tamb�m acompanhar todas as senten�as SQL e os par�metros passados por ela (menu �Tools�, item �Show SQL�). Assim, profissionais de inform�tica podem verificar as consultas que a ferramenta faz na base de dados.

Conclus�o

Os testes efetuados at� aqui no FMDB t�m sido motivantes a partir do momento que ele tornou poss�vel a descoberta de algumas informa��es nos dados que anteriormente n�o haviam sido sequer cogitadas.

A ferramenta � free e ainda est� em desenvolvimento. Atualmente est� sendo constru�do um novo m�dulo que permitir� a an�lise de dados que mudam com o tempo. Isso facilitar� acompanhar a evolu��o dos dados que estejam sendo coletados.

A vers�o atual e seu manual est�o dispon�veis na se��o de downloads no site do Grupo de Bases de Dados e Imagens do ICMC/USP em http://gbdi.icmc.usp.br, onde tamb�m ser�o mantidas as novas vers�es.�

�

Prof. Dr. Caetano Traina J�nior (caetano@icmc.usp.br) � Professor Associado (livre-docente) do Departamento de Ci�ncias de Computa��o do ICMC-USP e pesquisador na �rea de banco de dados. Seus interesses incluem o suporte a dados n�o convencionais em bancos de dados, tais como imagens, �udio e s�ries temporais, bem como t�cnicas de minera��o de dados e suporte informacional a aplica��es da �rea m�dica. Realizou est�gio de p�s-doutoramento na Carnegie Mellon University, � autor de mais de 140 publica��es nacionais e internacionais na �rea de banco de dados, e j� orientou mais de 30 trabalhos de mestrado e doutorado.

Profa. Dra. Agma Juci Machado Traina (agma@icmc.usp.br) � Professora Associada (livre-docente) do Departamento de Ci�ncias de Computa��o do ICMC-USP e pesquisadora na �rea de Processamento de Imagens e Indexa��o de Dados Multim�dia. Seus interesses incluem o tratamento de imagens de exames m�dicos e sistemas de visualiza��o de dados cient�ficos, bem como minera��o de dados multim�dia e aplica��es na �rea m�dica. Realizou est�gio de p�s-doutoramento na Carnegie Mellon University, � autora de mais de 120 publica��es nacionais e internacionais na �rea de Imagens e Banco de Dados, e j� orientou mais de 15 trabalhos de mestrado e doutorado.

Humberto Razente (hlr@icmc.usp.br) � respons�vel pela manuten��o dos sistemas computacionais do Laborat�rio de Banco de Dados e Imagens do Departamento de Ci�ncias de Computa��o do ICMC-USP e pelo suporte � constru��o de aplicativos envolvendo bancos de dados, imagens e minera��o de dados. Atualmente est� engajado em programa de mestrado no ICMC-USP.

Ms. Maria Camila Nardini Barioni (mcamila@icmc.usp.br) � aluna de doutorado do Programa de P�s-Gradua��o em Ci�ncias de Computa��o e Matem�tica Computacional do ICMC-USP. Seus interesses incluem o acesso a dados n�o convencionais em bancos de dados e minera��o de dados, incluindo t�cnicas de realimenta��o de interesse para navega��o e visualiza��o de grandes volumes de dados multim�dia.