DevMedia
Você precisa estar logado para dar um feedback. Clique aqui para efetuar o login
Para efetuar o download você precisa estar logado. Clique aqui para efetuar o login

Extract, Transformation and Load (ETL) - Ferramentas BI

Veja neste artigo como funciona o processo de ETL, um dos principais processos para extração, tratamento e carga dos dados que vão alimentar o Data Warehouse

[fechar]

Você não gostou da qualidade deste conteúdo?

(opcional) Você poderia comentar o que não lhe agradou?

Confirmo meu voto negativo

ETL como a própria tradução já diz é um processo de extração, transformação e carga, para a construção de um Data Warehouse ou Data Mart.

O processo de ETL (Extract, Transform and Load) é um processo que exige esforço e a maior parte do tempo de construção de um Data warehouse, este processo vai extrair dados de fontes de dados heterogêneas e tem que alimentar o Data Warehouse de forma homogênea e concisa, pois vai servir de base para gerar relatórios e gráficos de apoio à decisão para a gerencia da corporação e não pode trazer resultados errôneos.

Esse processo deve definir claramente quais informações são relevantes e que farão parte dos dados que vão alimentar o Data Warehouse, que deverá ter a estrutura desenhada com relação aos dados que serão extraídos dos vários sistemas e as informações que devem ser geradas a partir deste repositório.

Depois de selecionados os dados que serão carregados no Data Warehouse, vem a parte de tratamento ou transformação e limpeza dos dados, que consiste em padronizar os dados com relação ao tamanho e tipo, substituição de caracteres estranhos, correção de erros de digitação, comparação fonética para evitar duplicidade de informações, por exemplo o mesmo nome escrito de formas diferentes, com ou sem acentuação etc., substituição de dados não preenchidos por “Não Informado” por exemplo, padronização de unidades de medida, pois em determinado sistema pode ter a unidade informada em metros em outro sistema ter a unidade informada em polegadas, posso ter unidades com 3 casas decimais num sistema e no outro ter 4 casas decimais; devemos também tratar as diferentes definições de informação, por exemplo ter em um sistema a definição de H para homem e M para mulher, em outro sistema tenho M para masculino e F para feminino, em casos como esses deve-se optar pela definição mais usual dos sistemas de origem e torná-la padrão para a alimentação do Data Warehouse.

Visão do ETL

Figura 1. Visão do ETL.

Este processo deve ser bem analisado e homologado por profissionais com função específica de análise de negócios, apresentando os resultados aos gerentes e diretores para aprovação das informações que serão inseridas no Data Warehouse de forma concisa e confiável.

Depois desse processo vem à parte da carga, a parte em que a ferramenta de ETL vai extrair os dados das várias fontes selecionadas, tratá-los através das definições feitas a partir de análises detalhadas dos dados de origem e carregá-los no Data Warehouse para que sejam lidos e apresentem os resultados, mas, para isso é necessário saber o volume de dados que será extraído e transformado, o tempo necessário para a extração de dados dos vários sistemas de origem, o tempo necessário para a transformação de forma que não comprometa a performance dos sistemas de origem.

Essa carga normalmente é programada para ser executada diariamente, nos horários de menor utilização dos sistemas que vão alimentar o Data Warehouse, mas pode ser programada para ser executada mais vezes ao dia conforme a necessidade de análise dos resultados, mas sempre observando a questão de performance para não comprometer os outros sistemas como informado acima.

Espero que estas poucas linhas tenham dado uma ideia de como funciona uma ferramenta de ETL e como processo de criação do Data Warehouse. Até o próximo artigo.

Bibliografia:

(Decisões com B.I. de Fábio Vinicius Primak - Ed. Ciência Moderna).

http://www.fsma.edu.br/si/Artigos/V2_Artigo1.pdf

http://www.infobras.com.br/portugues/produtos_conceito_etl.asp



Welington Lourenço(welingtonl@gmail.com) é desenvolvedor, trabalha com análise e desenvolvimento de sistemas em Visual Fox Pro desde 1995, desde 2000 atua com desenvolvimento de sistemas com acesso a banco de dados (Sql Server, My [...]

O que você achou deste post?
Conhece a assinatura MVP?
Serviços

Mais posts