Considerações prévias à utilização empírica do Data-Mining

Considera��es pr�vias � utiliza��o emp�rica do Data-Mining

Neste momento, em que vamos iniciar a abordagem das tarefas e t�cnicas de Data-Mining (DM) ao longo desta coluna, � interessante pontuar alguns aspectos conceituais do tema e que antecedem aos aspectos eminentemente pr�ticos.

Nos �ltimos quarenta anos as tecnologias de informa��o e de banco de dados proporcionaram a migra��o do primitivo processamento de arquivos de dados para os complexos e robustos sistemas de banco de dados. Contudo, a abund�ncia de dados armazenados, associada � aus�ncia de processos n�o sistematizados de consulta aos reposit�rios de dados e, de ordin�rio, subjugados ao processamento operacional, gerou uma situa��o de excesso de dados armazenados em presen�a de pobreza de informa��o. Felizmente, mormente nas duas �ltimas d�cadas, o r�pido aumento da capacidade de processamento computacional, associado ao baixo custo de armazenamento, vem contribuindo para a constru��o de reposit�rios de dados que permitem cruzar dados de diferentes fontes, procurando identificar informa��es relevantes e transformando-as em conhecimento �til para o processo decis�rio gerencial. Nesse contexto, a motiva��o � transformar informa��o em estado bruto em conhecimento aplic�vel e isso pode se dar por meio do DM.

Os conceitos te�ricos de DM encontrados na literatura variam na medida em que s�o mais ou menos restritivos em rela��o a dois aspectos: o tamanho da base de dados alvo e o grau de automatiza��o dos processos de minera��o. Nesse contexto, para Berry e Linoff (1997) �data-mining � a explora��o e an�lise, por meio autom�tico ou semi-autom�tico, de grandes quantidades de dados, com o objetivo de revelar regras e padr�es significativos�. Outra interessante defini��o � a de Han e Kamber (2001), por conceituarem o reposit�rio de dados a ser minerado, qual seja, �data-mining � o processo de descoberta de conhecimento interessante a partir de grandes quantidades de dados armazenados tanto em bancos de dados e data warehouses quanto em qualquer outro reposit�rio de informa��o�.

J� uma defini��o menos restritiva � obtida em Fayyad et al. (1997), �qualquer algoritmo que identifica padr�es em dados, ou ajusta modelos aos dados, executa data-mining. � uma das etapas do knowledge data discovery�. O extrato de import�ncia a ser conclu�do dessas conceitua��es � o de que bases de dados, antes inescrut�veis em seu todo devido �s limita��es de tempo e de recursos humanos e tecnol�gicos, est�o cada vez mais servindo de apoio � tempestiva decis�o gerencial, haja vista formarem mat�ria prima para aplica��o fact�vel e intensiva de algoritmos e t�cnicas tradicionalmente aplic�veis em an�lise de dados.

A partir das defini��es anteriores, surgem outros interessantes conceitos: Data Warehouse (DW) e Knowledge Data Discovery (KDD). Resumidamente, um DW � um reposit�rio de dados especificamente orientado para o suporte � decis�o gerencial, em que os dados hist�ricos, provenientes das diversas fontes organizacionais, passam por um processo de limpeza, transforma��o, padroniza��o, documenta��o, armazenamento e, posteriormente, publica��o aos usu�rios finais, com vistas exclusivamente ao processamento e viabiliza��o de consultas.

Pode-se dizer que as potencialidades que diferenciam um DW residem em um armazenamento e processamento de dados destacado do operacional, em uma modelagem de dados dimensional (sedimentada em tabelas de fato e de dimens�o), e na defini��o de metadados (dados sobre os dados) especificamente orientados aos neg�cios corporativos. Esse conjunto de recursos proporciona que as consultas formuladas sejam respondidas por informa��es corretas, consistentes e em bom tempo. O leitor provavelmente j� se apercebeu de que um DW � um ambiente extremamente favor�vel � implementa��o de um processo de DM, este o utilizando como fonte de mat�ria bruta a ser minerada.

J� um processo de KDD � entendido por um processo iterativo integrando diversas etapas, tais como limpeza e transforma��o de dados, data warehousing etc, podendo-se a� incluir ou n�o um DM. Existe uma diferencia��o entre descoberta direta e indireta de conhecimento. A descoberta indireta seria a respons�vel por reconhecer padr�es nos dados, independentemente do estabelecimento pr�vio e r�gido de t�picos ou alvos de interesse. J� a direta estaria a cargo principalmente de explicar os padr�es porventura descobertos pelo processo indireto.

Nesse contexto, as tarefas e t�cnicas de DM encontram seu palco de atua��o; as tarefas sendo entendidas como diferentes abordagens aplicadas para a solu��o de v�rios problemas de escopo empresarial ou econ�mico, quais sejam, principalmente, classifica��o, estima��o, previs�o, an�lise de afinidades, an�lise de agrupamentos e descri��o. J� por t�cnicas de DM leiam-se ferramentas ou algoritmos que perfa�am as tarefas previamente identificadas e solicitadas pelo minerador ou analista, v.g., regress�o, redes neurais, �rvores de decis�o, redes bayesianas etc. As caracter�sticas gerais de cada uma das principais tarefas s�o abordadas em seguida.

A classifica��o pode ser sintetizada por um processo de discrimina��o de unidades concretas ou abstratas em classes ou categorias, e que � executado diariamente pela mente humana desde os mais remotos tempos. Assim, classificam-se sabores, amigos, clientes, eventos etc em categorias, tais como doce/salgado/neutro, bom/mau, legal/ilegal etc. Em um processo de DM, a classifica��o est� especificamente voltada � atribui��o de uma das classes predefinidas pelo analista a novos fatos ou objetos submetidos ao classificador. As t�cnicas mais utilizadas para este fim s�o �rvores de decis�o, regress�o, redes neurais dentre outras.

A estima��o, ao contr�rio da classifica��o, est� associada �s respostas cont�nuas. Assim, pode-se estar interessado em estimar a renda m�dia de uma fam�lia com base em seus bens dur�veis informados em um question�rio, a expectativa de vida de um novo cliente de uma seguradora com base em seu formul�rio de admiss�o, ou a propens�o � inadimpl�ncia associada a um postulante de empr�stimo calculada a partir de suas caracter�sticas pessoais. Os modelos de regress�o e as redes neurais s�o bastante utilizados nestes casos, sendo que especificamente nos casos de regress�o para estima��o em processos de DM, o leitor deve estar atento para uma diferen�a te�rica existente entre estima��o e predi��o em termos estat�sticos (o que pode ser abordado nesta coluna em outra oportunidade).

A previs�o, como tarefa t�pica de DM, est� associada � avalia��o de um valor futuro de uma vari�vel resposta a partir de seus dados hist�ricos. Assim, pode-se prever o pre�o de determinada a��o, ou o n�mero de clientes que ser�o perdidos por uma empresa, em um dado horizonte futuro de tempo. As t�cnicas que podem ser utilizadas aqui s�o, dentre outras, as redes neurais, os m�todos estat�sticos de s�ries temporais, a regress�o, as �rvores de decis�o e o racioc�nio baseado em casos.

A an�lise de afinidades preocupa-se em reconhecer padr�es de ocorr�ncia simult�nea de determinados eventos nos dados em an�lise. Exemplificando, um supermercado deseja conhecer quais os produtos que s�o comumente comprados em conjunto pelos consumidores de forma a otimizar seu layout interno. Em termos de t�cnicas, a utiliza��o das regras de associa��o constitui-se no procedimento de elei��o nestes casos.

A an�lise de agrupamentos visa formar grupos de objetos ou elementos mais homog�neos entre si. Pode ser estabelecido previamente um n�mero de grupos a ser formado, ou ent�o se pode admitir ao algoritmo de agrupamento uma livre associa��o de unidades, de forma a que a quantidade de grupos resultante seja conhecida somente ao final do processo. Uma clara diferen�a entre agrupamento e classifica��o � que l� as classes s�o predefinidas pelo pesquisador, enquanto que aqui n�o existe tal requisito. Em geral, a tarefa de agrupamento � executada por algoritmos estat�sticos espec�ficos para esse fim, por�m as redes neurais e os algoritmos gen�ticos s�o tamb�m utilizados neste sentido.

Por fim, a descri��o objetiva aumentar o conhecimento do analista a respeito de uma grande base de dados, o que auxilia sobremaneira a tomada de decis�o e pode ainda suscitar a formula��o de novas hip�teses de pesquisa e tarefas de DM. Por exemplo, � com base na descri��o aplicada a grandes bases de dados que se pode propor pol�ticas p�blicas tais como as de cotas em universidades e as de distribui��es regionais de recursos, dentre outras possibilidades.

Com o sedimento dos conceitos iniciais apresentados acima, n�o percam as pr�ximas colunas em que ser�o introduzidos alguns conceitos b�sicos de probabilidade condicional e ser� apresentada uma aplica��o de redes bayesianas, que s�o bastante utilizadas em Sistemas Inteligentes e em DM, sendo neste �ltimo voltadas principalmente para a classifica��o, estima��o e descri��o de dados.

Refer�ncias Citadas:

BERRY , Michael J. e LINOFF, Gordon. Data Mining Techniques For Marketing, Sales and Customer Support. John Wiley & Sons, 1997.
KIMBALL, Ralph. Data Warehouse Toolkit. Makron Books, 1998.
FAYYAD, Usama et al. Advances in Knowledge Discovery and Data Mining. The AAAI Press, 1996.
HAN, Jiawey e KAMBER, Micheline. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001.
CARVALHO, L. A. Vidal. Datamining. �rica, 2001

Um abra�o.

Alexandre.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Alexandre Em 2006

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso