Considerações prévias à utilização empírica do Data-Mining

Neste momento, em que vamos iniciar a abordagem das tarefas e técnicas de Data-Mining (DM) ao longo desta coluna, é interessante pontuar alguns aspectos conceituais do tema e que antecedem aos aspectos eminentemente práticos.

Nos últimos quarenta anos as tecnologias de informação e de banco de dados proporcionaram a migração do primitivo processamento de arquivos de dados para os complexos e robustos sistemas de banco de dados. Contudo, a abundância de dados armazenados, associada à ausência de processos não sistematizados de consulta aos repositórios de dados e, de ordinário, subjugados ao processamento operacional, gerou uma situação de excesso de dados armazenados em presença de pobreza de informação. Felizmente, mormente nas duas últimas décadas, o rápido aumento da capacidade de processamento computacional, associado ao baixo custo de armazenamento, vem contribuindo para a construção de repositórios de dados que permitem cruzar dados de diferentes fontes, procurando identificar informações relevantes e transformando-as em conhecimento útil para o processo decisório gerencial. Nesse contexto, a motivação é transformar informação em estado bruto em conhecimento aplicável e isso pode se dar por meio do DM.

Os conceitos teóricos de DM encontrados na literatura variam na medida em que são mais ou menos restritivos em relação a dois aspectos: o tamanho da base de dados alvo e o grau de automatização dos processos de mineração. Nesse contexto, para Berry e Linoff (1997) “data-mining é a exploração e análise, por meio automático ou semi-automático, de grandes quantidades de dados, com o objetivo de revelar regras e padrões significativos”. Outra interessante definição é a de Han e Kamber (2001), por conceituarem o repositório de dados a ser minerado, qual seja, “data-mining é o processo de descoberta de conhecimento interessante a partir de grandes quantidades de dados armazenados tanto em bancos de dados e data warehouses quanto em qualquer outro repositório de informação”.

Já uma definição menos restritiva é obtida em Fayyad et al. (1997), “qualquer algoritmo que identifica padrões em dados, ou ajusta modelos aos dados, executa data-mining. É uma das etapas do knowledge data discovery”. O extrato de importância a ser concluído dessas conceituações é o de que bases de dados, antes inescrutáveis em seu todo devido às limitações de tempo e de recursos humanos e tecnológicos, estão cada vez mais servindo de apoio à tempestiva decisão gerencial, haja vista formarem matéria prima para aplicação factível e intensiva de algoritmos e técnicas tradicionalmente aplicáveis em análise de dados.

A partir das definições anteriores, surgem outros interessantes conceitos: Data Warehouse (DW) e Knowledge Data Discovery (KDD). Resumidamente, um DW é um repositório de dados especificamente orientado para o suporte à decisão gerencial, em que os dados históricos, provenientes das diversas fontes organizacionais, passam por um processo de limpeza, transformação, padronização, documentação, armazenamento e, posteriormente, publicação aos usuários finais, com vistas exclusivamente ao processamento e viabilização de consultas.

Pode-se dizer que as potencialidades que diferenciam um DW residem em um armazenamento e processamento de dados destacado do operacional, em uma modelagem de dados dimensional (sedimentada em tabelas de fato e de dimensão), e na definição de metadados (dados sobre os dados) especificamente orientados aos negócios corporativos. Esse conjunto de recursos proporciona que as consultas formuladas sejam respondidas por informações corretas, consistentes e em bom tempo. O leitor provavelmente já se apercebeu de que um DW é um ambiente extremamente favorável à implementação de um processo de DM, este o utilizando como fonte de matéria bruta a ser minerada.

Já um processo de KDD é entendido por um processo iterativo integrando diversas etapas, tais como limpeza e transformação de dados, data warehousing etc, podendo-se aí incluir ou não um DM. Existe uma diferenciação entre descoberta direta e indireta de conhecimento. A descoberta indireta seria a responsável por reconhecer padrões nos dados, independentemente do estabelecimento prévio e rígido de tópicos ou alvos de interesse. Já a direta estaria a cargo principalmente de explicar os padrões porventura descobertos pelo processo indireto.

Nesse contexto, as tarefas e técnicas de DM encontram seu palco de atuação; as tarefas sendo entendidas como diferentes abordagens aplicadas para a solução de vários problemas de escopo empresarial ou econômico, quais sejam, principalmente, classificação, estimação, previsão, análise de afinidades, análise de agrupamentos e descrição. Já por técnicas de DM leiam-se ferramentas ou algoritmos que perfaçam as tarefas previamente identificadas e solicitadas pelo minerador ou analista, v.g., regressão, redes neurais, árvores de decisão, redes bayesianas etc. As características gerais de cada uma das principais tarefas são abordadas em seguida.

A classificação pode ser sintetizada por um processo de discriminação de unidades concretas ou abstratas em classes ou categorias, e que é executado diariamente pela mente humana desde os mais remotos tempos. Assim, classificam-se sabores, amigos, clientes, eventos etc em categorias, tais como doce/salgado/neutro, bom/mau, legal/ilegal etc. Em um processo de DM, a classificação está especificamente voltada à atribuição de uma das classes predefinidas pelo analista a novos fatos ou objetos submetidos ao classificador. As técnicas mais utilizadas para este fim são árvores de decisão, regressão, redes neurais dentre outras.

A estimação, ao contrário da classificação, está associada às respostas contínuas. Assim, pode-se estar interessado em estimar a renda média de uma família com base em seus bens duráveis informados em um questionário, a expectativa de vida de um novo cliente de uma seguradora com base em seu formulário de admissão, ou a propensão à inadimplência associada a um postulante de empréstimo calculada a partir de suas características pessoais. Os modelos de regressão e as redes neurais são bastante utilizados nestes casos, sendo que especificamente nos casos de regressão para estimação em processos de DM, o leitor deve estar atento para uma diferença teórica existente entre estimação e predição em termos estatísticos (o que pode ser abordado nesta coluna em outra oportunidade).

A previsão, como tarefa típica de DM, está associada à avaliação de um valor futuro de uma variável resposta a partir de seus dados históricos. Assim, pode-se prever o preço de determinada ação, ou o número de clientes que serão perdidos por uma empresa, em um dado horizonte futuro de tempo. As técnicas que podem ser utilizadas aqui são, dentre outras, as redes neurais, os métodos estatísticos de séries temporais, a regressão, as árvores de decisão e o raciocínio baseado em casos.

A análise de afinidades preocupa-se em reconhecer padrões de ocorrência simultânea de determinados eventos nos dados em análise. Exemplificando, um supermercado deseja conhecer quais os produtos que são comumente comprados em conjunto pelos consumidores de forma a otimizar seu layout interno. Em termos de técnicas, a utilização das regras de associação constitui-se no procedimento de eleição nestes casos.

A análise de agrupamentos visa formar grupos de objetos ou elementos mais homogêneos entre si. Pode ser estabelecido previamente um número de grupos a ser formado, ou então se pode admitir ao algoritmo de agrupamento uma livre associação de unidades, de forma a que a quantidade de grupos resultante seja conhecida somente ao final do processo. Uma clara diferença entre agrupamento e classificação é que lá as classes são predefinidas pelo pesquisador, enquanto que aqui não existe tal requisito. Em geral, a tarefa de agrupamento é executada por algoritmos estatísticos específicos para esse fim, porém as redes neurais e os algoritmos genéticos são também utilizados neste sentido.

Por fim, a descrição objetiva aumentar o conhecimento do analista a respeito de uma grande base de dados, o que auxilia sobremaneira a tomada de decisão e pode ainda suscitar a formulação de novas hipóteses de pesquisa e tarefas de DM. Por exemplo, é com base na descrição aplicada a grandes bases de dados que se pode propor políticas públicas tais como as de cotas em universidades e as de distribuições regionais de recursos, dentre outras possibilidades.

Com o sedimento dos conceitos iniciais apresentados acima, não percam as próximas colunas em que serão introduzidos alguns conceitos básicos de probabilidade condicional e será apresentada uma aplicação de redes bayesianas, que são bastante utilizadas em Sistemas Inteligentes e em DM, sendo neste último voltadas principalmente para a classificação, estimação e descrição de dados.

Referências Citadas:

BERRY , Michael J. e LINOFF, Gordon. Data Mining Techniques For Marketing, Sales and Customer Support. John Wiley & Sons, 1997.
KIMBALL, Ralph. Data Warehouse Toolkit. Makron Books, 1998.
FAYYAD, Usama et al. Advances in Knowledge Discovery and Data Mining. The AAAI Press, 1996.
HAN, Jiawey e KAMBER, Micheline. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001.
CARVALHO, L. A. Vidal. Datamining. Érica, 2001

Um abraço.

Alexandre.