Artigo da SQL Magazine 26 - Data mining e a descoberta de associações em dados
Artigo publicado na Revista SQL Magazine - Edição 26.
Clique aqui para ler esse artigo em PDF.
Clique aqui para ler todos os artigos desta edição
Data mining e a descoberta de associações em dados
Andrei Alencastro, Gustavo Semaan e Carlos Rodrigo Dias
Data mining, ou mineração de dados, corresponde à extração automática ou semi-automática de padrões ou modelos a partir dos dados armazenados em uma base de dados. Nesse contexto, um padrão é um evento, ou conjunto de eventos, que ocorre com uma certa freqüência na base de dados e um modelo corresponde à estrutura que descreve, de forma resumida, estes dados. Para que a mineração de dados obtenha sucesso, os padrões e modelos obtidos, além de serem úteis, devem trazer alguma novidade, ou seja, devem ser interessantes para o usuário. E na prática, como a mineração de dados pode ser útil?
Para responder a esta pergunta, deve-se considerar que a realidade atual das empresas está inserida no contexto da globalização. Assim, é importante que cada empresa busque, a cada instante, estratégias para conseguir alcançar vantagem competitiva em relação às demais. Vantagem competitiva deve ser entendida como qualquer diferencial que uma empresa possa ter em relação às outras. Entretanto, nem toda vantagem competitiva é sustentável, pois, em alguns casos, é possível que ela seja copiada por outras empresas. Portanto, uma vantagem competitiva é considerada sustentável se ela for valiosa, rara, difícil de imitar ou insubstituível.
Para incrementar a vantagem competitiva de uma empresa em um ambiente de constantes mudanças, os seus gestores devem tomar as decisões corretas nos momentos certos, utilizando as informações disponíveis. Desta forma, o sucesso poderá ser alcançado a partir das decisões tomadas desde que seja realizada uma exploração eficaz do relacionamento existente entre os diferentes elementos que compõem a realidade de atuação da empresa.
Com o avanço das tecnologias de informação e o aumento da capacidade de armazenamento e de processamento dos sistemas computacionais, cada vez mais as empresas armazenam em suas bases de dados informações referentes às várias formas de interação com seus clientes e fornecedores. Como exemplo pode-se citar as transações de compras em uma empresa de varejo, em que cada compra de cada cliente envolve um ou mais produtos. A partir do banco de dados criado e alimentado durante um período de tempo, imagina-se que estes dados possam conter informações valiosas. Algumas destas informações podem ser obtidas através da execução de consultas SQL, em que o desenvolvedor cria suas próprias hipóteses, ou de seus usuários, gerando, em seguida, uma série de relatórios gerenciais. Um relatório deste tipo informaria, por exemplo, os produtos mais vendidos durante o período de um mês.
Entretanto, nestes dados armazenados sobre as transações existe muito mais informações do que se percebe em um primeiro momento. Estas informações normalmente ficam ocultas devido ao volume de dados disponível. Na busca destas informações ocultas pode-se querer, por exemplo, identificar os produtos que são comprados juntos em um certo número de compras, o que corresponde ao problema conhecido como “análise da cesta de compras”. Outro exemplo é a busca pela identificação dos perfis de clientes a partir dos produtos adquiridos por eles. Observa-se facilmente que estes tipos de demandas não podem ser atendidos com simples consultas SQL. Assim, é necessário recorrer a outras ferramentas de análise.
A cada dia novos investimentos estão sendo realizados em pesquisa para o desenvolvimento de técnicas computacionais e algoritmos para explorar as bases de dados disponíveis. Isto permite um suporte cada vez maior aos tomadores de decisões das empresas. Um grupo de técnicas desenvolvidas para este fim recebe a denominação de mineração de dados (data mining), que corresponde a uma analogia ao processo tradicional de mineração, em que ocorre a extração de minérios valiosos da Terra. No caso da mineração de dados, os “minérios valiosos” são os padrões escondidos nos dados que, de alguma forma, podem ser extraídos.
É importante mencionar que, neste artigo, estamos tratando da aplicação da mineração de dados em bases de dados comerciais. Entretanto, a mineração de dados vem sendo utilizada nas mais diversas áreas, como bioinformática, medicina, astronomia, análise de logs da web, pesquisa operacional, dentre outras.
Estima-se que o volume de dados armazenados em bancos de dados espalhados pelo mundo dobre a cada 20 meses. Assim, a dificuldade em encontrar padrões e modelos nestes dados é cada vez maior, tornando-se ainda mais complexa pelo fato destes dados estarem normalmente espalhados em diferentes sistemas em diversos setores de uma empresa. A integração destes dados espalhados pode ser necessária se, no processo de tomada de decisão, for necessária uma visão mais ampla da empresa. Esta integração pode ocorrer, por exemplo, com a implantação de um ERP ou um data warehouse. Em alguns casos esta integração pode não ser necessária, como no caso do escopo ser apenas vendas, o que exigirá apenas os dados referentes às transações de vendas.
Independente do escopo para a geração dos padrões desejados, para realizar a mineração de dados são necessárias ferramentas automatizadas ou semi-automatizadas. Atualmente existem diversas ferramentas de análise disponíveis que não contemplam as técnicas de mineração de dados. Estas ferramentas normalmente utilizam métodos baseados na verificação, isto é, o usuário (analista de negócio) constrói hipóteses sobre relações entre os dados para extrair algum tipo de padrão implícito a partir do banco de dados. Um exemplo de hipótese que pode ser tratada por este tipo de ferramenta é saber se os clientes com determinada faixa de renda familiar são mais propensos a solicitar financiamento em suas compras do que os demais clientes. Neste contexto de ferramentas estão os geradores de relatórios e as ferramentas de análise OLAP (On-Line Analytical Processing). Estes métodos de verificação dependem da intuição, visão e experiência do analista de negócio em propor hipóteses interessantes para extrair informações do banco de dados, de tal forma que possam ser aplicadas estrategicamente na empresa. Diferentemente, na mineração de dados o objetivo é encontrar relações entre os dados que ainda não sejam conhecidas. É importante mencionar que a mineração de dados não precisa ser aplicada apenas a grandes bases de dados, sendo também possível obter conhecimento valioso a partir de bases de dados modestas.
Para muitos autores, a mineração de dados é considerada uma etapa de um processo maior, denominado KDD ("
[...] continue lendo...Artigos relacionados
-
Artigo
-
Artigo
-
Artigo
-
Artigo
-
Artigo