Artigo SQL Magazine 10 - TreeMiner

Aten��o: por essa edi��o ser muito antiga n�o h� arquivo PDF para download.
Os artigos dessa edi��o est�o dispon�veis somente atrav�s do formato HTML.

Clique aqui para ler todos os artigos desta edi��o

TreeMiner: Uma Ferramenta para Explora��o Visual de Dados

O avan�o da tecnologia tem proporcionado a empresas e organiza��es acumularem uma quantidade significativa de dados armazenados eletronicamente. Mas a posse destes dados n�o se traduz imediatamente em posse de informa��es �teis. Para isso s�o necess�rias t�cnicas e ferramentas que os explorem de forma eficiente. Foi justamente com esta finalidade que surgiu a �rea de estudo denominada Descoberta de Conhecimento em Bases de Dados (KDD � Knowledge Discovery in Databases). KDD pode ser definido como o processo de extra��o de informa��o �til, n�o trivial e previamente desconhecida de bases de dados. A fase mais importante do KDD � a minera��o de dados e � nesta fase que informa��o �til � efetivamente extra�da dos dados.

Dentre as t�cnicas de minera��o de dados, a explora��o visual de dados � a mais intuitiva por usar a habilidade humana de rapidamente interpretar imagens. Assim, t�cnicas de explora��o visual mapeiam dados em imagens a fim de permitir a interpreta��o dos dados. No universo de tipos de dados, as estruturas hier�rquicas de informa��o s�o bastante comuns. Estruturas de diret�rios, estruturas organizacionais e �rvores geneal�gicas s�o alguns exemplos.

Neste contexto, este artigo apresenta uma ferramenta de explora��o visual de dados hier�rquicos baseada em mapas em �rvore chamada TreeMiner. O sistema � importante pois trabalha em uma �rea da computa��o muito recente e ainda pouco explorada. Os algoritmos e o conceito da ferramenta s�o estudados por centros de excel�ncia em computa��o no mundo, como a Universidade de Maryland (http://www.cs.umd.edu/hcil/treemap/). Posso colocar tamb�m a Microsoft no grupo de institui��es que pesquisam sobre o assunto (http://netscan.research.microsoft.com/treemap). Al�m disso o TreeMiner se aplica a casos reais como bolsas de valores, an�lise de tr�fego em redes, centros educacionais dentre outros.

Nota

O TreeMiner foi desenvolvido por este autor sob orienta��o do Prof. Manoel Mendon�a como parte da disserta��o de mestrado na Universidade Salvador (www.unifacs.br), com o apoio do fundo de amparo a pesquisa da Eletrobr�s.

Visualiza��o de Informa��es

Como vimos, a visualiza��o de informa��es � um dos mecanismos que podem ser utilizados para descoberta de informa��o �til em um conjunto de dados. Para exemplificar este conceito, a Figura 1 apresenta um padr�o em formato tabular. Para maioria das pessoas este padr�o � de dif�cil detec��o. A Figura 2 mostra o mesmo padr�o em um formato gr�fico. Neste caso, o padr�o pode ser facilmente interpretado.

Figura 1. Dados apresentados na forma tabular.

� importante notar, todavia, que padr�es simples como o mostrado na Figura 2 n�o s�o comuns. Padr�es de interesse s�o geralmente complexos e variam em diversas dimens�es.

Figura 2. Dados apresentados de forma gr�fica.

Explora��o visual de dados hier�rquicos

Dados hier�rquicos s�o bastante comuns e a aplica��o de t�cnicas de minera��o visual de dados ajudam a extrair informa��es �teis deles. A forma mais comum de representa��o visual de estruturas hier�rquicas � atrav�s de �rvores usando linhas (ver Figura 3). Entretanto, esta possui duas grandes desvantagens: (1) uma grande por��o do espa�o visual dispon�vel � gasto na organiza��o dos n�s; e (2) estruturas hier�rquicas grandes geram �rvores de dif�cil visualiza��o. Poder�amos considerar o exemplo mostrado na Figura 3 como uma estrutura de pastas. As folhas representariam os arquivos com seus respectivos tamanhos e os n�s pai, as pastas com soma de todos os tamanhos dos arquivos e de sub-pastas.

Figura 3. Desenho de uma �rvore usando linhas.

O Mapa em �rvore � um m�todo de visualiza��o de preenchimento de espa�o utilizado em estruturas hier�rquicas. Ele utiliza todo o espa�o dispon�vel para visualiza��o das informa��es, mapeando a hierarquia em regi�es retangulares, como mostrado na Figura 4.

Figura 4. Um Mapa em �rvore para a Figura 3.

Como mostrado na Figura 4, ele pode ser usado para fazer com que os n�s que contenham informa��es de maior import�ncia sejam colocados em regi�es maiores que aqueles de menor import�ncia. Isto permite aos usu�rios comparar os tamanhos dos n�s e das sub-�rvores, ajudando a mostrar padr�es hier�rquicos incomuns. O algoritmo usado para desenhar os ret�ngulos nesta figura � o cortar e fatiar, criado por Ben Shneiderman da universidade de Maryland, nos EUA. Ele alterna cortes verticais e horizontais na tela para cada n�vel da hierarquia. Assim, as orienta��es das linhas s�o trocadas � medida que descemos na estrutura hier�rquica. Entretanto, este m�todo tem uma defici�ncia, ele pode criar um desenho com altas raz�es de aspecto, ou com ret�ngulos muito longos e finos que podem ser dif�ceis de ver, selecionar, comparar em tamanho e rotular (ver Figura 5a).

Neste contexto, existem outros algoritmos que desenham os ret�ngulos com melhor visualiza��o. S�o eles: aglomerado (Figura 5b), quadriculado (Figura 5c), piv� pelo meio (Figura 5d) e piv� por tamanho (Figura 5e). Esses algoritmos criam visualiza��es mais claras da hierarquia melhorando a visualiza��o de itens menores. Os Mapas em �rvore aglomerados e quadriculados, criados por Huizing Bruls e J. van Wijk, e os algoritmos piv� por tamanho e piv� por m�dia, criados por Ben Shneiderman e Martin Wattenberg, reduzem bastante a rela��o de aspecto. Cada um deles com uma particularidade.

Figura 5. Representa��o de um mesmo n�vel hier�rquico utilizando o cortar e fatiar (a), aglomerado(b), quadriculado (c), piv� pelo meio(d) e piv� por tamanho(e).

O TREEMINER

O TreeMiner � uma ferramenta para explora��o visual de dados baseada em mapas em �rvores. Ela foi desenvolvida com objetivo inicial de representa��o e manipula��o de dados do sistema energ�tico brasileiro. Para isto, ela combina o uso de imagens baseadas em mapas em �rvore com recursos para consulta interativa e detalhamento sobre demanda dos dados sendo explorados. Sua arquitetura � composta de quatro m�dulos (ver Figura 6): entrada de dados, apresenta��o visual, controle de consulta e controle de atributos visuais.

Figura 6. Arquitetura do aplicativo.

M�dulo de entrada de dados

Este m�dulo permite a integra��o da ferramenta com os mais variados tipos de fontes de dados. Desta forma � poss�vel acessar arquivos CSV, bancos de dados relacionais, servidores de documentos e estruturas de diret�rios.

M�dulo de apresenta��o visual

Este m�dulo � respons�vel por apresentar o modelo dos itens da hierarquia em mapas em �rvore e fornecer meios de explora��o desse modelo. No TreeMiner, foram implementados dois algoritmos de desenho de mapas em �rvore: o cortar e fatiar e o quadriculado. O destaque 1 da Figura 7 mostra uma visualiza��o utilizando o algoritmo quadriculado.

No exemplo da Figura 7 temos cada usina representada por um ret�ngulo azul sendo sua �rea proporcional � sua pot�ncia em MW (Megawatt). A unidade federativa (UF) est� representando o primeiro e �nico n�vel na hierarquia, que � percebido atrav�s dos agrupamentos de ret�ngulos pelas bordas em cinza, mostrando dessa forma quais usinas est�o em uma mesma unidade federativa.

Com o objetivo de facilitar e detalhar a explora��o do modelo visual s�o oferecidas outras funcionalidades como zoom, dicas textuais, r�tulos, detalhamento completo dos atributos de um registro de dados, controle de exibi��o de n�veis e escolha da hierarquia.

M�dulo de controle de consultas

Os controles de consultas s�o componentes visuais que permitem a execu��o de opera��es de sele��o sobre o conjunto de dados sendo manipulado (ver destaque 2 da Figura 7). Para isto, para cada atributo � criado um controle que possui os valores que estes podem assumir.

M�dulo de controle de atributos visuais

Este m�dulo define as caracter�sticas das estruturas visuais do modelo, tais como: o ajuste do tamanho dos ret�ngulos, das cores que representar�o os atributos e a forma��o dos agrupamentos com a escolha da hierarquia dos dados. Al�m disso, � respons�vel por v�rios outros detalhes visuais como a largura das bordas entre os conjuntos e a cor que representa um filtro nos dados.

Veremos a partir de agora como estes m�dulos em conjunto permitem a extra��o de informa��o �til a partir de uma base de dados.

Figura 7. Imagem geral do TreeMiner com o uso do algoritmo quadriculado exibindo informa��es sobre usinas hidrel�tricas brasileiras.

Conhecendo o TreeMiner

Os dados utilizados neste exemplo s�o proje��es que indicam as poss�veis necessidades de gera��o t�rmica convencional para os pr�ximos 5 anos das usinas que operam em regime complementar para o Sistema Nacional Interligado (SIN). Foram coletados e montados em uma tabela a m�dia anual de utiliza��o da usina, o ano da an�lise, o subsistema do qual a usina faz parte (Sudeste/Centro Oeste, Sul, Nordeste), tipo de combust�vel, custo por MW, pot�ncia, produ��o m�xima, produ��o m�nima, nome, dentre outros.

Essa tabela foi ent�o colocada no formato CSV. Este � um arquivo de texto puro em que cada linha representa um registro de dados e cada campo desse registro � separado por uma v�rgula ou ponto-e-v�rgula (ver Figura 8).

Figura 8. Formata��o dos dados em arquivo CSV.

Tendo estes dados, devemos abri-los no TreeMiner. Como este tipo de entrada n�o possui uma hierarquia pr�-definida e o software � baseado na utiliza��o de �rvores para a visualiza��o dos dados, � obrigat�ria a defini��o dos atributos que especificam a hierarquia. Por exemplo, poder�amos escolher o ano para representar o primeiro n�vel da hierarquia, e sistema, o segundo. Neste caso, estar�amos dividindo os registros em conjuntos que possuam o mesmo ano e em cada um dos subconjuntos de ano classificando a usina por subsistema ao qual ela faz parte. A Figura 9 apresenta a interface onde � configura a hierarquia dos dados. Neste exemplo, definimos a hierarquia ano-subsistema-combust�vel.

Figura 9. Escolha da hierarquia

Os dados poder�o ent�o ser visualizados (ver Figura 10). Como vari�vel de dimensionamento foram usados os atributos �produ��o m�nima� e �produ��o m�xima�. Esta vari�vel servir� para calcular o tamanho dos ret�ngulos projetados na tela. E como vari�vel de colora��o foi utilizado o atributo �custo marginal�, partindo da cor branca representando o menor custo at� a cor vermelha representando o maior custo. Em conjunto, as vari�veis de dimensionamento e colora��o s�o uma poderosa ferramenta para a descoberta de informa��es �teis em bases de dados. A escolha dessas vari�veis s�o feitas atrav�s da aba Legendas como mostrado na Figura 11.

Figura 10. Visualiza��o dos dados do setor energ�tico: produ��o m�nima (a) e produ��o m�xima (b) ao longo de 4 anos de previs�o.

Figura 11. Defini��o do comportamento dos atributos.

A partir desta visualiza��o pode-se perceber a distribui��o das produ��es m�nimas e m�ximas nos subsistemas (pelo tamanho dos ret�ngulos) e quais usinas ser�o respons�veis pelas maiores gera��es no decorrer dos anos. Assim, torna-se mais f�cil perceber tamb�m quais usinas possuem probabilidade de serem acionadas ou desativadas primeiro de acordo com seu custo e capacidade de produ��o. Um exemplo: as usinas com tamanhos menores e cores mais vermelhas devem ser desativadas primeiro pois s�o caras e produzem pouca energia. J� as maiores e mais claras devem ser acionadas primeiro pois produzem muita energia a um custo mais baixo.

Al�m disso, � poss�vel perceber facilmente a distribui��o da gera��o de energia por tipo de combust�vel utilizado e por custo marginal de opera��o. Neste contexto, um outro exemplo seria a an�lise com base na emiss�o de CO2. Esta an�lise demonstraria quais usinas deveriam ser desativadas ou terem diminu�das sua gera��o, na hip�tese de entrada de usinas que reduzam ou n�o emitam gases de efeito estufa.

Representando a quantidade de emiss�o de CO2 pelo tamanho, como mostrado na Figura 12, pode-se identificar quais subsistemas apresentam maior potencial de emiss�o.

Figura 12. Visualiza��o dos dados do setor energ�tico. Mostra a quantidade de CO2 emitido por cada usina (verde � g�s, azul � �leo, vermelho � carv�o).

Conclus�o

O TreeMiner, apesar de ter sido criado com o objetivo de analisar dados do setor energ�tico, possui capacidades que o torna bastante abrangente. As muitas funcionalidades de manipula��o e detalhamento do modelo visual permitem que ele seja utilizado de forma bastante eficiente em diferentes dom�nios de aplica��o.

Para confirmar sua utilidade, foram feitos alguns estudos de caso no TreeMiner. Ele se mostrou �til na an�lise de dados do setor energ�tico, em especial a produ��o de energia e emiss�o de gases por usinas termel�tricas. Ajudou tamb�m a explorar visualmente um reposit�rio de documentos, al�m da an�lise de tr�fego dos servi�os e detec��o de comportamentos incomuns em redes de computadores.

Embora o TreeMiner n�o esteja dispon�vel para download, os leitores poder�o ter um no��o pr�tica de como a t�cnica funciona acessando o site www.smartmoney.com/marketmap, e atrav�s do site http://www.cs.umd.edu/hcil/treemap/ (site oficial da t�cnica), onde atualmente � disponibilizada uma ferramenta com recursos e usabilidade bastante semelhantes ao TreeMiner (ver Figura 13).

Por fim, aos leitores mais curiosos, existe uma documenta��o ampla sobre a t�cnica dispon�vel no site oficial citado no par�grafo anterior. Boa sorte!