Data Quality: Como está a qualidade dos nossos dados?

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Data Quality: Como est� a qualidade dos nossos dados?

Carlos Caldo

Imagine:

Mesmo pagando a fatura, voc� recebe pela terceira vez aquela indesej�vel carta de cobran�a de seu cart�o de cr�dito. Prontamente, mas irritado, voc� liga apara central de atendimento ao cliente e o atendente lhe diz:

-Sinto muito senhor, consta em nosso sistema que a fatura esta em aberto.

Ap�s muitas liga��es e explica��es a operadora do cart�o reconhece que foi um erro do sistema. Cansado pelo transtorno voc� solicita o cancelamento do cart�o...

Mais um Cliente perdeu a paci�ncia...

Mais uma Empresa perdeu um Cliente...

E tudo porque os DADOS estavam errados!

Mas como isso ocorreu? Que tipo de erro os dados apresentavam? Como podem os dados armazenados estarem incorretos?

Bem, para respondermos a estas perguntas ter�amos que analisar minuciosamente o universo de dados do cen�rio acima e para isto entrar�amos no terreno denominado de Data Quality.

O leitor pode agora estar com uma s�rie de perguntas na mente. Vamos tentar respond�-las.

Caldo, o que � Data Quality?

Em minha opini�o existe uma vis�o minimalista sobre Data Quality, pois a maioria das organiza��es associa o termo �nica e exclusivamente a uma Ferramenta. Data Quality pode e deve ser visto como algo maior, ou seja, um conjunto de processos que visa garantir que os dados armazenados sejam:

Corretos;
Precisos;
Consistentes;
Completos;
Integrados;
Aderentes �s regras de neg�cio;
Aderentes aos dom�nios estabelecidos.

Estes processos devem abranger desde a identifica��o de problemas com os dados e sua classifica��o at� a corre��o dos valores e a posterior monitora��o, ou seja, identificamos aquilo que denominamos de dados �sujos� e promovemos, dentro do poss�vel, a �limpeza� dos mesmos. Depois monitoramos para verificar se erros n�o est�o sendo introduzidos novamente. Em outras palavras: Seguimos os princ�pios de TQM (Total Quality Management): ANALISAR, MEDIR E MELHORAR.

Mas o que podemos entender por dados �sujos�?

S�o aqueles dados armazenados que est�o inconsistentes. Podemos classificar estes dados em categorias, vamos citar algumas, utilizando nomes de Tabelas e Colunas hipot�ticos:

Valores Default DUMMY: Quando encontramos Defaults para os valores de colunas ou campos obrigat�rios.

Exemplo: CPF com 999.999.999-9

Valores Default �INTELIGENTES�: Quando os Defaults possuem significado. Exemplo: Se a coluna IDADE contiver 000 o cliente � corporativo!

Valores contradit�rios: Quando os valores de uma coluna ou campo s�o inconsistentes com os valores de outra coluna ou campo relacionado.

Exemplo:

Na Tabela de CLIENTES determinada linha possui os seguintes valores:

Coluna CEP: 031085-020

Coluna Endere�o: Rua Amazonas;

Todavia, na Tabela de CEPs este CEP n�o � da rua Amazonas!

Viola��o de Regras de Neg�cio: Quando o encontramos um valor de uma coluna ou campo que n�o est� aderente a uma regra de neg�cio.

Exemplo: Se na Tabela de CONTRATOS a coluna TIPO-DE-CONTRATO conter o valor �VIP� e a coluna DATA-DO-CONTRATO for inferior a �01.012006� o valor da coluna PERCENTUAL-TAXA-DE-JURO deve ser inferior a 4. Todavia, encontramos em uma linha da Tabela que obedece a regra, mas a coluna taxa de juro est� com o valor 6!

Valores em desacordo com o dom�nio: Quando os valores de uma coluna ou campo n�o obedecem ao dom�nio estabelecido.

Exemplo: Na Tabela de FUNCIONARIO a coluna SITUACAO-DO-FUNCIONARIO deve conter os seguintes valores: �ATIVO�, �INATIVO�,�DEMITIDO�. Todavia, encontramos em uma linha da Tabela que possui uma situa��o igual a �AFASTADO!

Estas s�o algumas categorias, por�m a lista � um pouco maior.

Entendi, mas como implementar os processos de Data Quality?

Bem, como respondi na primeira pergunta, Data Quality n�o � somente uma Ferramenta. Portanto, � necess�rio especificar formalmente o conjunto de processos, com suas entradas, atividades, itens regulat�rios, itens de suporte, e suas sa�das. Com os processos definidos, podemos depois avaliar com maior precis�o uma ferramenta que seja aderente �s necessidades da organiza��o.

Numa vis�o geral, a arquitetura de processos teria o seguinte contexto:

Arquitetura de Processos de Data Quality: Cada ret�ngulo representa um processo a ser especificado detalhadamente.

Poderia falar um pouco mais sobre os processos centrais?

Vamos a uma vis�o geral sobre eles:

Analise dos Dados (Profiling): Varre a base de dados e apresenta como est�o os dados, ou seja, � o retrato daquilo que existe armazenado.

Por exemplo, em um relat�rio de distribui��o de freq��ncia poder�amos ter:

Na tabela de CLIENTE a coluna sexo apresenta os seguintes valores armazenados:

1000 linhas com �M�

2000 linhas com �F�

200 LINHAS COM �X�

Auditoria (Audit): Com base no conhecimento daquilo que existe, especifica-se, para efeito de valida��o e medi��o, aquilo que deveria existir.

Por exemplo:

Na Tabela CLIENTE a coluna sexo deveria conter somente os valores �M� e �F�

Corre��o (Cleansing): Promover a �limpeza� dos dados inconsistentes. Claro que ap�s recebermos os Relat�rios de auditoria deve ser feita uma an�lise de impacto para sabermos aquilo que podemos corrigir. N�o raro, corrigimos aquilo que consideramos critico para o funcionamento do neg�cio, deixando a corre��o de alguns erros para momento oportuno.

Al�m dos processos acima citados, temos o de Monitora��o que consiste em realizar auditorias peri�dicas (ap�s a Corre��o) para verificar como est� a qualidade dos dados. Atrav�s do processo de Monitora��o conseguimos, inclusive, apresentar relat�rios com Indicadores de Qualidade que permitem uma vis�o sobre a melhoria da qualidade de determinada Base de Dados: Estamos melhorando ou piorando?

Caldo, e quanto ao Checklist de Avalia��o de Qualidade de Dados?

Esta � uma pe�a fundamental para que os processos centrais possam ser executados. Neste Checklist definimos os quesitos de qualidade de dados.

Quando vamos executar uma Auditoria na Qualidade dos Dados seguimos este Checklist, ou seja, se, por exemplo, as Tabelas de determinada Base de Dados est�o em conformidade com os quesitos de qualidade tudo est� bem, se n�o, identificamos onde e o que est� com problemas.

Validade de Dom�nios, Integridade estrutural e de Regras de Neg�cio s�o alguns exemplos de quesitos de Qualidade de Dados. Por�m, quando definimos este Checklist para uma Empresa efetuamos adapta��es na nomenclatura dos quesitos, bem como adicionamos alguns e retiramos outros, em rela��o aos quesitos normalmente conhecidos no mercado.

Na arquitetura o processo de aquisi��o de Ferramenta. Poderia recomendar alguma?

Existem v�rias ferramentas dispon�veis no mercado e cada empresa deve promover uma avalia��o que valide se a ferramenta atende as necessidades dos processos Regulat�rios e Centrais. Entretanto, podemos apenas dizer que estamos trabalhando em projetos que utilizam alguns produtos da su�te de Data Quality da IBM:

� WebSphere ProfileStage

� WebSphere AuditStage

� WebSphere QualityStage

� WebSphere DataStage

Em nossa an�lise os produtos atendem plenamente as necessidades dos processos de Data Quality e possuem �timo desempenho para tratamento de grandes volumes de dados.

Conclus�o:

Neste pequeno artigo n�o temos a pretens�o de esgotar o assunto Data Quality, mas apenas sensibilizar o amigo leitor, quanto � import�ncia de se entender claramente a amplitude deste tema.

Em tempo, gostaria de recordar que dados incorretos acarretam, entre outros problemas:

� Retrabalho para efetuar corre��es (custo com recursos e tempo extra!);

� Perda de oportunidades de neg�cios e clientes;

� Risco de Imagem;

� Multas por n�o cumprimento de normas regulat�rias.

Para encerrarmos deixo uma pequena reflex�o:

Ser� que as raz�es acima n�o s�o suficientes para que nossas empresas empreendam, rapidamente, iniciativas de Data Quality?

Um grande abra�o a todos e at� o pr�ximo artigo!