Carga de dados com Integration Services 2008 - Revista SQL Magazine 110

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Artigo do tipo Tutorial
Recursos especiais neste artigo:
Cont�m nota Quickupdate, Conte�do sobre solu��o completa.
Autores: Jean Cristian Ferreira Machadoe Elton de Freitas

Carga de dados com Integration Services 2008
A carga de dados consiste em carregar os dados j� transformados e manipulados para dentro de um banco de dados relacional, ou multidimensional ou diretamente para um datamart ou data warehouse. Dependendo das necessidades da organiza��o, este processo varia amplamente.

A inser��o de dados em alguns datamarts ou data warehouses pode variar de acordo com a necessidade de cada organiza��o, seja mensalmente, semanalmente ou at� mesmo diariamente. A lat�ncia e o alcance de reposi��o ou acr�scimo constituem op��es de projeto estrat�gicas que dependem do tempo dispon�vel e das necessidades de neg�cios. Neste artigo voltamos a abordar o tema Automatiza��o de Dados com o SSIS (SQL Server Integration Services). Enfatizaremos principalmente as t�cnicas de carregamento de dados, que por sua vez � a ultima parte do processo de ETL. Ser� desenvolvido um projeto pr�tico visando apresentar as t�cnicas e metodologias de carga de dados.

O processo de Extra��o, Transforma��o e Carga de Dados (Extract, Transform e Load) � respons�vel por grande parte do trabalho a ser executado para cria��o e atualiza��o de um datamart ou data warehouse.

Em que situa��o o tema �til
Atrav�s do conhecimento de t�cnicas que possibilitam maior facilidade no carregamento dos dados, � poss�vel integrar diversas bases de dados, popular um datamart ou data warehouse e realizar altera��es de forma automatizada.

Mediante o crescimento vertiginoso das bases de dados, surgem as necessidades de maior facilidade de manipula��o das mesmas. As empresas procuram solu��es eficazes e encontram alternativas interessantes nas t�cnicas de carregamento, que por sua vez demonstram-se muito eficazes.

A sigla ETL � origin�ria do idioma ingl�s, Extract, Transform and Load, sendo um processo que pode ser feito via scripts SQL ou usando ferramentas de software que se destinam a extra��o, transforma��o e carga de dados. Estes dados podem ser originados de uma ou mais bases de dados, bem como o destino destes dados podem ser para um ou mais bancos de dados de sistemas de informa��o ou datamarts ou data warehouse.

A metodologia de ETL como j� dito � extrair, transformar e carregar os dados. Em alguns casos pode n�o haver a necessidade de aplicar a transforma��o dos dados a serem carregados, pois os mesmos j� podem estar de acordo com as regras do banco de dados de destino, mas s�o raros os casos de se pular a parte de transforma��o para um datamart ou data warehouse, visto que os mesmos foram criados para suprir uma necessidade que uma base de dados relacional n�o tem capacidade de fornecer. Esse tipo de processo pode acontecer mais quando se transfere dados de um banco relacional para outro, sendo neste caso um processo de migra��o de dados.

Atualmente a produ��o de informa��o � incessante e cresce vertiginosamente, in�meras empresas possuem diversas fontes de dados em v�rios formatos. Para obter informa��es desses dados armazenados em fontes diversas, surge a necessidade de integr�-los de forma pr�tica, �gil e produtiva.

Para transformar v�rias bases de dados em uma �nica fonte de consulta e processamento para obten��o de informa��o, devem ser aplicadas diversas t�cnicas de ordena��o, agrupamento, padroniza��o e limpeza dos dados.

O processo de automatiza��o � de vital import�ncia para quem deseja obter ganho de desempenho e n�o pode demandar maior parcela de tempo na capta��o de informa��es que s�o imprescind�veis nas tomadas de decis�es gerenciais.

Para fins de exemplifica��o, foram utilizadas bases de dados de um concurso p�blico da UFJF (Universidade Federal de Juiz de Fora). Tal concurso foi realizado pela Comiss�o Permanente de Sele��o - COPESE e seus resultados foram divulgados em formato PDF, conforme cargo e localidade. As bases de dados s�o p�blicas e podem ser encontradas no site da Universidade Federal de Juiz de Fora.

Em artigos anteriores publicados na SQL Magazine, foram demonstrados os processos de extra��o e de transforma��o dos dados. Os dados foram extra�dos de arquivos no formato PDF e convertidos para dados em formato texto. Tamb�m foram ordenados, ajustados, transformados e carregados para dentro de tabelas num banco de dados relacional.

Neste artigo ser� demonstrada a terceira fase do processo de ETL, a carga dos dados ou Load, que ser� automatizada pela ferramenta SSIS. Depois de todas as transforma��es sofridas pelos dados, os mesmo ser�o carregados em um banco de dados multidimensional no formato estrela, fazendo uso do SSIS. Ser�o revistos diversos componentes e suas respectivas aplicabilidades. Essa �ltima fase se caracteriza por ser o fechamento de todo o trabalho feito pela extra��o e transforma��o.

Valida��o dos dados

Antes de iniciar o processo de carga dos dados ser� feita uma valida��o dos dados que foram manipulados na fase de transforma��o dos dados vista no artigo publicado na edi��o 108 da SQL Magazine. Esse tipo de verifica��o � vital para a continua��o do processo, pois � mais f�cil corrigir imperfei��es na parte de tratamento dos dados, do que depois que os dados j� foram carregados no datamart ou data warehouse.

Assim, a tabela tab_tratada passar� por algumas verifica��es antes de ser carregada dentro do banco multidimensional. Essa verifica��o ser� feita por meio de scripts SQL dentro da ferramenta de banco de dados do SQL Server.

Todo o processo de valida��o ser� feito por meio de scripts T-SQL na ferramenta de banco de dados do SQL Server.

Para aqueles que est�o come�ando a acompanhar o artigo agora, aconselhamos a leitura dos artigos anteriores publicados nas revistas SQL Magazine 107 e 108. Caso n�o seja poss�vel, estaremos disponibilizando o script de cria��o do banco juntamente com os dados utilizados na se��o Links no final do artigo.

O script da Listagem 1 seleciona todos os dados inseridos na tabela tab_tratada. Neste ponto dever� ser feita uma verifica��o visual para identificar algum erro grosseiro nos dados. A partir dos mesmos deve-se buscar por falhas mais espec�ficas.

Listagem 1. Script que verifica todos os dados inseridos na tabela tab_tratada.


  Use importa
  SELECT 
  classificacao, nome, total, ling_port, rac_loc_quant, legislacao, con_esp,
 pr_pratica, cidade, cargo, insc, data_nasc
  FROM
  #TAB_TRATADA
  ORDER BY CARGO,INSC,NOME

Por meio da an�lise visual feita previamente sobre os dados da Listagem 1 foi poss�vel constatar que alguns dados n�o passaram com sucesso pelo filtro que separa os registros com cargos que tem prova pr�tica e os que n�o possuem prova pr�tica, ocasionando irregularidades nos registros.

Percebe-se isso principalmente nos cargos que possuem descri��es de T�cnicos, onde os campos �con_esp� (conhecimentos espec�ficos) e �pr_pratica� (prova pr�tica) est�o duplicados, sendo que tais registros n�o deveriam existir, pois s�o os que cont�m falhas de inser��o de dados.

Para fins de melhor visualiza��o � necess�rio isolar estes casos. Dessa forma, � poss�vel verificar melhor o tipo de inconsist�ncia, vide Listagem 2.

Listagem 2. Script que filtra apenas os casos com registros inconsistentes.


  Use importa
  SELECT 
  ROW_NUMBER() over(PARTITION BY insc ORDER BY pr_pratica asc)
ordem,classificacao, nome, total, ling_port, rac_loc_quant, legislacao, 
con_esp, pr_pratica, cidade, cargo, insc, data_nasc
  FROM #TAB_TRATADA WHERE CARGO LIKE '%TECNICO%' 
AND CARGO NOT LIKE 'TECNICO-DE-TECNOLOGIA-DA-INFORMACAO' 
  ORDER BY INSC,NOME

Com o script da Listagem 2 � poss�vel verificar somente os casos em que existem as irregularidades. Foi criado somente dentro dessa consulta um campo chamado ordem, ele serve para diferenciar a maioria dos casos em que h� irregularidades, ordem 1, e para os demais que n�o possuem esta classifica��o, ordem 2. Em alguns pouqu�ssimos registros os valores do campo ordem se invertem, ent�o foi usado o script da Listagem 3 para uma verifica��o mais apurada.

Listagem 3. Verifica��o usando como crit�rio o campo �con_esp� (conhecimentos espec�ficos).



  Use importa
  SELECT 
  ROW_NUMBER() over(PARTITION BY insc ORDER BY pr_pratica asc)
ordem,classificacao, nome, total, ling_port, rac_loc_quant, legislacao, 
con_esp, pr_pratica, cidade, cargo, insc, data_nasc
  FROM #TAB_TRATADA WHERE CARGO LIKE '%TECNICO%' 
AND CARGO NOT LIKE 'TECNICO-DE-TECNOLOGIA-DA-INFORMACAO' 
  AND CHARINDEX(' ',LTRIM(RTRIM(CON_ESP)))>0
  ORDER BY INSC,NOME

Na Listagem 3 � poss�vel visualizar todos os casos que possuem mais de uma nota dentro do campo �con_esp�. Verifica-se que existe um padr�o separando a primeira nota da segunda nota. Esse padr�o � um espa�o em branco. Assim, ser� necess�rio remover todos os espa�os em branco das extremidades e trazer todos os casos em que se tem um espa�o em branco no meio de uma cadeia de caracteres. Para resolver essa situa��o usa-se o script da Listagem 4.

Listagem 4. Remove as colunas duplicadas e com erro nos dados de notas.


  Use importa
  BEGIN TRAN
  DELETE
  FROM #TAB_TRATADA WHERE CARGO LIKE '%TECNICO%'
 AND CARGO NOT LIKE 'TECNICO-DE-TECNOLOGIA-DA-INFORMACAO'
  AND CHARINDEX(' ',LTRIM(RTRIM(CON_ESP)))>0
  COMMIT TRAN

Atrav�s do script da Listagem 4 � poss�vel remover os registros duplicados com erro nos dados de notas, assim mant�m-se apenas os registros corretos.

Executando novamente o script da Listagem 3 percebe-se que os registros duplicados foram removidos e permaneceram apenas os registros com os dados corretos.

Outra verifica��o que pode ser feita � se existem nomes duplicados. Essa verifica��o � feita na Listagem 5.

Listagem 5. Verifica se existem nomes duplicados.


Use importa

  SELECT NOME,MAX(INSC)INSC_MAXIMO,MIN(INSC)INSC_MINIMO 
FROM #TAB_TRATADA GROUP BY NOME HAVING COUNT(NOME)>2
   
  SELECT NOME,MAX(INSC)INSC_MAXIMO,MIN(INSC)INSC_MINIMO 
FROM #TAB_TRATADA GROUP BY NOME HAVING COUNT(NOME)>1

A primeira consulta da Listagem 5 verifica se existem casos de mais de dois nomes iguais, por�m isso n�o � verdadeiro. A segunda consulta � onde a condi��o traz os nomes duplicados e suas respectivas inscri��es. Se as inscri��es forem diferentes, quer dizer que s�o apenas pessoas com mesmo nome e n�o registros duplicados.

Mais uma verifica��o que pode ser feita � se existem inscri��es duplicadas. Essa verifica��o � feita na ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Por Devmedia Em 2013

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Assine hoje e aprenda com projetos reais e mentoria

Tudo o que voc� precisa para entrar na tecnologia, aprender r�pido e evoluir com clareza.
Conhecer Planos

M�todo para iniciantes

sem base nenhuma

Mentorias individuais

quando voc� travar

+40 projetos reais

para o seu portf�lio

+5000 exerc�cios

para fixar o conte�do

Suporte IA

que te ensina

No code e automa��es

pra entregar mais r�pido

+ 3 meses de assinatura gr�tis!

Oferta v�lida para todos os planos durante o m�s de dezembro

+3 MESES

Gr�tis

Veja os resultado dos nossos alunos

Conquistas reais de quem est� aplicando o m�todo

Conhecer Planos

<Perguntas frequentes>

Carreira

Por onde devo iniciar os estudos?

Recomendamos come�ar pelo Plano de Estudo Carreira Programador Front-End. Essa �rea da programa��o � mais visual e intuitiva, tornando-a ideal para iniciantes. No Front-End, voc� aprender� a criar a parte visual dos sites, como layout, cores e interatividade. Depois de dominar o Front-End, voc� pode avan�ar para Programador Back-End, onde aprender� a lidar com a l�gica e o funcionamento interno dos sites, e, finalmente, para Programador Mobile, focando no desenvolvimento de aplicativos para smartphones. Nossa metodologia � estruturada de forma progressiva para garantir que voc� desenvolva confian�a e experi�ncia ao criar projetos reais, como sites est�ticos e din�micos.

Em quanto tempo vou me tornar um programador?

O tempo necess�rio para se tornar um programador varia de acordo com a dedica��o de cada estudante. Com nossa metodologia, que inclui um Plano de Estudo detalhado e suporte cont�nuo, voc� pode se tornar um programador de 6 meses a um ano, dependendo do seu ritmo e esfor�o. Nossa abordagem pr�tica e orientada a projetos ajudar� a acelerar seu aprendizado.

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

N�o. Ser programador � uma excelente oportunidade para quem n�o possui diploma de faculdade. Muitas empresas contratam baseadas nas habilidades t�cnicas e experi�ncia pr�tica, n�o necessariamente em diplomas. Ap�s conquistar uma vaga, voc� pode optar por complementar sua forma��o com um diploma.

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

A necessidade de programadores cresceu exponencialmente, especialmente ap�s a pandemia de Covid-19, que for�ou muitas empresas a se adaptarem ao digital. Com o crescimento das empresas de tecnologia, a demanda por programadores aumentou. Atualmente, h� mais de 200 mil vagas abertas no Brasil devido � falta de profissionais qualificados.

Metodologia

Quais s�o os principais diferenciais da DevMedia?

Did�tica e Metodologia Com mais de 20 anos de experi�ncia, nossa metodologia foca em menos aulas e mais pr�tica. Desenvolvemos dezenas de projetos e exerc�cios para ajudar voc� a se tornar um programador completo. Nossos projetos s�o desafiadores e aut�nticos, n�o apenas exerc�cios repetitivos.
Projetos reais e exerc�cios Voc� desenvolver� diversos projetos pr�ticos em cada carreira (Front-End, Back-End e Mobile), recebendo mentoria e suporte cont�nuo. A pr�tica � essencial, e oferecemos milhares de exerc�cios para ajudar voc� a fixar o conte�do e melhorar sua posi��o no ranking.
Suporte ao aluno Nossa plataforma oferece suporte dedicado com professores experientes, respondendo suas d�vidas em menos de uma hora. Isso garante que voc� receba a ajuda necess�ria durante toda a sua jornada de aprendizado.
Gamifica��o A DevMedia utiliza gamifica��o para tornar o aprendizado mais envolvente e motivador. Voc� acumula pontos e moedas por acertos, que podem ser trocados por produtos e customiza��es no seu card pessoal. Al�m disso, o sistema de ranking mensal incentiva a competi��o amig�vel e a melhoria cont�nua.

O que eu irei aprender estudando pela DevMedia?

Ao estudar conosco, voc� se tornar� um programador Full Stack, dominando Front-End, Back-End e Mobile. Utilizamos a linguagem JavaScript, a mais utilizada no mercado, preparando voc� para criar sistemas webs e aplicativos celulares. Nossa abordagem pr�tica inclui exerc�cios para fixar o conhecimento e desenvolvimento de projetos reais que te preparam, para o mercado de trabalho.

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

Ela � Multiplataforma, ela vai te permitir programar para web e para celulares utilizando praticamente a mesma sintaxe.

El� � Full Stack. Ela te permite criar aplica��es Front-end, Back-end e Mobile. Isso acelera muito sua carreira e aumenta suas possibilidades de pegar trabalhos aut�nomos e conquistar uma vaga no mercado.

Ela � f�cil de aprender. Como ela n�o exige conhecimento inicial em �Orienta��o a Objetos� ela se torna mais simples com uma curva de aprendizado suave e vai te permitir come�ar a programar mais r�pido do que outras linguagens

A plataforma oferece certificados?

Sim, oferecemos dois tipos de certificados: o certificado de conclus�o, que voc� adquire ao consumir o conte�do, e o certificado de autoridade, que voc� obt�m ao acertar exerc�cios. Ambos possuem carga hor�ria, que pode ser utilizada para fins acad�micos, como atividades complementares na faculdade, e tamb�m para comprova��es em processos seletivos ou no seu curr�culo.

A plataforma tem suporte ao aluno, como funciona?

Sim, temos uma equipe de programadores pronta para ajudar com todas as suas d�vidas! Durante o hor�rio comercial, o tempo m�dio de resposta � de at� 10 minutos. E n�o se preocupe, tamb�m oferecemos suporte � noite e nos finais de semana, com um prazo de resposta um pouco maior.

A DevMedia me forma como programador Full Stack?

Sim! Oferecemos uma forma��o completa, do zero at� Full Stack. Nosso foco � na pr�tica, ent�o voc� vai encontrar muitos exerc�cios e projetos reais ao longo do curso. Garantimos que voc� sair� com a autonomia necess�ria para desenvolver seus pr�prios projetos com confian�a!

Tem hor�rio para as aulas?

N�o, n�o temos hor�rios fixos para as aulas. Todo o nosso conte�do est� dispon�vel para voc� acessar a qualquer momento, permitindo que voc� estude conforme sua pr�pria disponibilidade e ritmo. Dessa forma, voc� pode integrar o aprendizado � sua rotina de maneira mais flex�vel e eficaz.

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Nosso foco principal � formar programadores de verdade. Sabemos que o dia a dia de um programador envolve muita leitura, interpreta��o e escrita de c�digo. Por isso, nosso conte�do � desenvolvido para ambientar voc� nesse processo desde o in�cio, proporcionando mais autonomia e acelerando seu aprendizado.
Na v�deo-aula � o professor que est� lendo, interpretando e escrevndo o c�digo para voc�, isso limita o seu progresso. Ao ler e interagir diretamente com o conte�do, voc� exercita sua capacidade de leitura e concentra��o, al�m de poder avan�ar no seu pr�prio ritmo. Dessa forma, voc� se torna um programador mais independente e preparado para os desafios reais do mercado.

Preciso de um computador espec�fico para estudar na DevMedia?

N�o � necess�rio nada espec�fico. Qualquer computador com processador atual e mem�ria de 8 GB � suficiente.

Eu consigo estudar pelo celular?

Sim, a DevMedia possui um aplicativo que te permite seguir com seus estudos de qualquer lugar.

A DevMedia tem aplicativo?

Sim, nosso aplicativo est� dispon�vel na Play Store e na Apple Store, permitindo que voc� estude de forma pr�tica e conveniente em qualquer lugar.

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

N�o, a faculdade n�o � necess�ria. Voc� n�o precisa de nenhum conhecimento pr�vio para iniciar os estudos na nossa plataforma.

Assinatura e Pagamentos

Quais s�o os planos de assinatura dispon�veis?

Oferecemos o plano anual, o valor total � lan�ado no cart�o de cr�dito, parcelado em 12 vezes, e voc� precisa dispor do valor total no limite do seu cart�o. Voc� tamb�m pode optar por pagar no PIX

Adquirindo o plano, terei acesso a todo o conte�do?

Sim, ao assinar nossa plataforma, voc� desbloqueia acesso total a todo o nosso conte�do, sem precisar comprar nada separadamente.

A plataforma tem planos vital�cios?

N�o, nossos planos s�o anuais, garantindo que voc� tenha acesso cont�nuo �s atualiza��es mais recentes e aos novos conte�dos. A tecnologia evolui rapidamente, e um plano vital�cio oferece um conte�do est�tico que se tornar� ultrapassado em pouco tempo. Com nossos planos anuais, voc� est� sempre � frente, aprendendo as novidades e tend�ncias mais atuais no mundo da programa��o.

A DevMedia tem fidelidade?

Sim, nosso plano tem uma fidelidade de 12 meses, o que garante o tempo ideal para voc� explorar nosso conte�do e desenvolver a autonomia necess�ria para trabalhar com programa��o.

Como funciona o cancelamento?

N�s garantimos seu direito de cancelamento com reembolso total dentro dos primeiros 7 dias.
Para que voc� aproveite ao m�ximo seu investimento, oferecemos suporte personalizado para orient�-lo na utiliza��o da plataforma. Tamb�m temos a op��o de transfer�ncia de titularidade do plano, permitindo que outra pessoa aproveite o restante do seu per�odo de assinatura.

Cadastro

Como excluir meus dados da plataforma?

Para excluir seus dados da plataforma, acesse o link : https://www.devmedia.com.br/fale-conosco/ e abra um protocolo de 'Exclus�o de dados'. Nossa equipe processar� a solicita��o e remover� todas as informa��es do seu cadastro.