ETL: Quais as ferramentas mais poderosas do mercado?

 

Olá leitores, estamos de volta com a nossa coluna e desta vez eu escolhi um tema que surgiu de uma conversa com alguns amigos e de uma rápida análise de mercado.

 

Ferramentas de ETL. Qual é a melhor? Quais são as opções que encontramos no mercado? Quais companhias têm desenvolvido melhor seu software para atender a demanda dos clientes?

 

De acordo com a última pesquisa do Gartner as empresas que fazem parte do quadrante de Líderes de Mercado são IBM com o DataStage e a Informática com o PowerCenter.

 

25-09-2007pic01.JPG 

Quadrante Mágico do Gartner – Data Integration

 

A BO, junto com outras companhias está tentando aprimorar sua ferramenta para melhorar o desempenho no mercado. Ferramentas com o Oracle Warehouse Builder perderam posição para no mercado por terem feitos poucos investimentos, mesmo que no último ano tenha havido uma drástica melhoria na ferramenta sua parcela de mercado diminuiu.

 

Mas, vamos focar nas duas empresas que nitidamente estão no topo da lista.

 

O PowerCenter tem em sua estrutura uma base similar ao DataStage. Já que basicamente o conceito de ETL não muda.

 

 

25-09-2007pic02.JPG 

Arquitetura do Informática PowerCenter

 

Um dos grandes trunfos de ambos os produtos é a portabilidade. Não existe a necessidade de um banco de dados específico para que as ferramentas funcionem, ambas acessam informações de bases heterogêneas de praticamente qualquer distribuidor, inclusive de mainframes.

 

A estrutura do PowerCenter suporta processamento de dados tanto em batch como em tempo real. A plataforma da ferramenta permite o acesso real-time a base transacional para que os dados sejam atualizados com a velocidade e necessidade exigida pelo negócio.

 

Ainda para o uso de informações em tempo-real o PowerCenter permite que o usuário desenvolva um processo de carga que seja capaz de analisar a base de dados de origem e atualizar no Data warehouse apenas o dado que foi atualizado naquele momento, otimizando assim o consumo e tempo de execução da carga. O mais interessante disto é que não há necessidade da criação de triggers, procedures ou qualquer outro método na base de origem para que tal atualização seja feita, a própria ferramenta se encarrega disto.

 

 

25-09-2007pic03.JPG 

Tela de Criação das Cargas no PowerCenter

 

Todas essas características também são encontradas no DataStage. A grande vantagem do DataStage é a capacidade de fazer processamento paralelo durante as suas cargas. É, isso mesmo, ele tem a capacidade de por um processo de cargar para rodar paralelamente, dividindo assim o consumo da máquina e aumentando a sua otimização. Para tal ele cria pequenos data sets do data set principal e faz com que cada pequeno bloco desse seja processado separadamente.

 

Este hoje é o grande diferencial do DataStage, porém ainda há um certo caminho a ser percorrido pela IBM em função de este software ter sido uma aquisição feita a pouco tempo e precisar de uma maior integração com a plataforma da empresa. Além de um marketing um pouco mais agressivo.

 

25-09-2007pic04.JPG 

A figura acima mostra exatamente o momento em que podemos selecionar o objeto para criar um job paralelo.

 

Além destas duas principais ferramentas nós podemos dizer que mais três grandes empresas têm investido fortes recursos na melhoria e na disputa deste mercado, BO, Oracle e SAS. Ao analisar opções de ferramenta ETL para uma empresa, estas empresas devem ser levadas em consideração.

 

Bom pessoal é isso ai, nos vemos na próxima coluna. Qualquer dúvida que vocês queiram fazer estou a disposição.

 

Um forte abraço a todos.

 

Vander Emiro Muniz

vmuniz@triscal.com.br

www.triscal.com.br