Uma análise das alternativas de arquiteturas para a integração de dados

 

por João Marcelo Borovina Josko

 

A qualidade de dados vem crescendo em criticidade à medida que muitas organizações compreendem que as graves dificuldades em alavancar seu negócio são oriundas dessa deformidade. A ausência de uma fundação sólida de dados mina o alcance de níveis adequados de desempenho, transparência e agilidade dos processos organizacionais.

 

Nesse cenário de não qualidade, áreas usuárias e de TI dissipam grande quantidade de energia para responder ao negócio. De um lado, as primeiras manuseiam grandes quantidades de dados para obterem seus indicadores de negócio e disponibilizarem em apresentações agradáveis. No outro extremo, a área de TI fica afogada na geração de dados sob demanda para apoiar os usuários e, principalmente, em responder o porquê das inconsistências nos dados.

 

Qualidade de dados é um tema complexo que compreende um conjunto de elementos que devem ser combinados harmoniosamente para, então, aprimorar o modo de como os dados são tratados e compreendidos. Dentre esses elementos, em uma visão macro, temos:

·                                        Políticas de Qualidade e Segurança de Dados;

·                                        Processos de Garantia de Qualidade de Dados;

·                                        Processos de Segurança de Dados;

·                                        Competências e Comportamentos em prol da Qualidade de Dados;

·                                        Recursos sistêmicos e ferramentas, entre outros.

 

Como componente dos Recursos Sistêmicos, a Integração de Dados cumpre o importante objetivo de entregar dados íntegros ao negócio por meio da adoção conjunta de práticas, ferramentas e uma arquitetura. Está última abordada a seguir.

Arquiteturas de Integração de Dados: Conceitos e Características

Uma arquitetura de integração representa uma abordagem ou técnica, independente de tecnologia, cujo papel é estabelecer os formatos, mecanismos e a latência com a qual os dados serão disponibilizados dentro da organização.

 

Selecionar a arquitetura – ou arquiteturas –, dentre as possíveis, exige da organização o conhecimento prévio das necessidades e requisitos de seu negócio para garantir o alinhamento do processo de escolha à visão estratégica. Como exemplo, uma organização que está considerando atender processos de gestão com baixíssima latência de dados deve estabelecer como uma das necessidades uma integração em real-time.

 

As arquiteturas abordadas nesse trabalho são:

 

·                                        Consolidação de Dados;

·                                        Virtualização de Dados;

·                                        Propagação de Dados;

·                                        Serviços de Dados.

Consolidação de Dados

Nessa técnica, os dados são capturados de múltiplas origens – na maioria dos casos em procedimentos batch com intervalos programados –, tratados e integrados em um repositório único, conforme esboço da figura 1. Essa, inclusive, ainda é a abordagem mais utilizada para a geração do Data Warehouse Corporativo, mas também aparece como opção para a criação um “canal ou camada” de dados capaz de servir a sistemas de informação de diferentes finalidades.


sql-05-06-2008pic01.JPG
Figura 1 –
Arquitetura de Consolidação dos Dados e as Tecnologias que a apóiam.

A vantagem dessa técnica está na possibilidade de tratamento – reestruturação, reconciliação, limpeza, agregação, etc. – de grandes volumes de dados durante o fluxo de dados das origens ao repositório consolidador sendo, portanto, ideal para organizações com consideráveis problemas na qualidade de seus dados. O suporte desse processo, por outro lado, requer capacidade computacional, banda de rede e espaço de armazenamento determinados diretamente pelo volume trafegado e um método de estruturação dos dados no repositório. Ainda, seu estilo apresenta certa dificuldade para atender necessidades de integração em real-time.

 

A tecnologia de ETL é tradicionalmente aplicada nos processos de consolidação de dados estruturados, enquanto a tecnologia de ECM foca no trato de dados não estruturados como documentos diversos e páginas Web.

Virtualização de Dados

Também referenciada como Federação de Dados, essa técnica provê uma visão –snapshot – integrada dos dados correntes por meio de um mecanismo – tecnologia de EII –que captura e manipula os dados diretamente a partir das bases de origens – ver esboço figura 2.

 

Como toda manipulação ocorre em tempo de execução, não há a sobrecarga e custos relativos a um repositório permanente, somente é necessário conhecer as origens dos dados. Por outro lado, esse mesmo fato impede que essa técnica seja utiliza em situações cujo nível de qualidade dos dados seja problemático, pois há o potencial impacto sobre o tempo de resposta devido ao aumento da concorrência sobre as bases de origem.


sql-05-06-2008pic02.JPG

Figura 2 – Arquitetura de Virtualização dos Dados e as Tecnologias que a apóiam.

Propagação de Dados

Essa técnica realiza uma operação de cópia de dados de um local para outro que pode ocorrer de maneira assíncrona ou síncrona – ver esboço na figura 3. Por ser orientada a evento – diferentemente das supracitadas –, esta pode ser aplicada às necessidades de tráfego de dados em real-time ou quase. Outro ponto relevante da técnica recai no seu uso em movimentações bidirecionais, em procedimentos de backups incrementais e no balanceamento da carga de trabalho.

 

A forma de implantação e a tecnologia empregada determinam o desempenho e a capacidade de tratamento dos dados. Enquanto as tecnologias de EDR e R-ETL –  centradas em dado – oferecem maior capacidade no tratamento de grande volume de dados, a tecnologia de EAI, centrada na troca de mensagens, viabiliza o tráfego bidirecional de pequenas porções de dados entre dois pontos e, por essa característica, é muito utilizada na integração de sistemas legados e ERP.

sql-05-06-2008pic03.JPG
Figura 3 –
Arquitetura de Propagação de Dados e as Tecnologias que a apóiam.

Serviços de Dados

Essa arquitetura oferece uma forma de consumo de dados diferente das utilizadas até o momento. Viabilizada pelo SOA – Service Oriented Application –, sistemas de informação e dados perdem o forte acoplamento, isto é, os primeiros passam a consumir os dados que necessita por meio de solicitações a uma camada de serviços e não mais pelo acesso direto aos bancos de dados.


sql-05-06-2008pic04.JPG 

Figura 4 – Arquitetura de consumo de Dados via SOA.

Além disso, essa camada de serviços – onde cada serviço representa uma porção discreta de funcionalidades empacotadas de maneira modular e distribuída – proporciona a construção e manutenção mais rápida de sistemas de informação por meio da composição de serviços – mashups. Basicamente, há uma camada de serviços que atende às solicitações dos sistemas de informação, enquanto outra camada interage com os bancos de dados, conforme ilustrado na figura 4 acima.

 

Essa segunda camada contém os Serviços de Dados – ou Data Services – responsáveis por desempenhar o acesso e a integração dos dados, encapsulando a lógica que une as estruturas físicas de dados o que alavanca a consistência e reuso dos dados. Esses serviços podem ser utilizados uma variedade de finalidades como: sincronização de dados, virtualização de dados, transformação de dados, entre outros.

Fornecedores de Ferramentas: Segmento em Ebulição

A integração dos dados, historicamente, tem sido construída de maneira fragmentada por meio da utilização de ferramentas e, principalmente, de códigos customizados. Essas ferramentas, até pouco tempo, apresentavam uma natureza de propósito ou finalidade única no que se refere ao estilo de integração e funcionalidades de qualidade dados suportados – por exemplo, uma ferramenta de ETL somente realizava as capturas batch – a um custo considerado elevado.


sql-05-06-2008pic05.JPG
Figura 5 –
Posição da capacidade dos fornecedores de ferramentas de Integração de Dados (FEINBERG, 2008)

O movimento de reconhecimento da importância dos dados dentro do cenário dos negócios vem pressionando os fornecedores na expansão de suas ferramentas de integração através da convergência e consolidação de funcionalidades para diferentes arquiteturas de integração, mas com uma forte tendência para a parte de SOA. A figura 5 acima ilustra o momento atual dos fornecedores dentro desse movimento.

Conclusão

Muitas organizações vêm observando que a qualidade dos seus dados é fundamental não somente para sua agilidade operacional, mas, sobretudo para satisfazer seus clientes. Essa propriedade, muito além da mera limpeza de dados e correções em sistemas de informação, exige uma visão corporativa que fortaleça o trabalho realmente cooperativo entre áreas de negócio e de TI e o foco na questão do gerenciamento dos metadados – o fundamento de qualquer iniciativa para a integração de dados.

Componente dessa propriedade, a integração de dados cumpre o importante papel de melhorar o nível de integridade dos dados da organização dentro do âmbito interno, bem como nos pontos de contato a outras organizações. Como a integração agrega valor corporativo, uma estratégia deve ser estabelecida para alinhar essa iniciativa à visão requerida pelo negócio para, dessa maneira, evitar à geração de uma solução cujo foco recaia sobre as idiossincrasias de problema um particular ou mesmo na consideração pura e simples de questões técnicas ou de custo/esforço.

Referências bibliográficas

CROSBY, Philip. “Qualidade é investimento”. Editora José Olympio, 1992.

FEINBERG, Donald.
“Data integration technology and architecture: building your data circulatory system”. São Paulo: Gartner Enterprise Integration Summit, 2008.

JOSKO, João Marcelo B. “Maximizando o retorno do investimento da solução de business intelligence”. Acessado em //www.devmedia.com.br/articles/viewcomp.asp?comp=7543 em 19/05/2008.