O que é Data Mining: Conceitos e Técnicas sobre Data Mining

Por que eu devo ler este artigo:Desde que a inform�tica tomou conta de nossas vidas, imensos volumes de informa��o t�m sido sistematicamente coletados e armazenados. A simples armazenagem e recupera��o dessa informa��o j� traz um grande benef�cio, pois agora j� n�o � mais necess�rio procurar informa��o em volumosos e ineficazes arquivos de papel. Contudo, apenas recuperar informa��o n�o propicia todas as vantagens poss�veis. O processo de Data Mining permite que se investigue esses dados � procura de padr�es que tenham valor para a empresa. Neste pequeno artigo pretendemos expor alguns dos principais conceitos que est�o por tr�s dessa importante tecnologia.

Introdu��o ao Data Mining

Data Mining � uma das novidades da Ci�ncia da Computa��o que veio para ficar. Com a gera��o de um volume cada vez maior de informa��o, � essencial tentar aproveitar o m�ximo poss�vel desse investimento. Talvez a forma mais nobre de se utilizar esses vastos reposit�rios seja tentar descobrir se h� algum conhecimento escondido neles. Um banco de dados de transa��es comerciais pode, por exemplo, conter diversos registros indicando produtos que s�o comprados em conjunto. Quando se descobre isso pode-se estabelecer estrat�gias para otimizar os resultados financeiros da empresa. Essa j� � uma vantagem suficientemente importante para justificar todo o processo.

Defini��o e Objetos no Data Mining

Data Mining consiste em um processo anal�tico projetado para explorar grandes quantidades de dados (tipicamente relacionados a neg�cios, mercado ou pesquisas cient�ficas), na busca de padr�es consistentes e/ou relacionamentos sistem�ticos entre vari�veis e, ent�o, valid�-los aplicando os padr�es detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: explora��o, constru��o de modelo ou defini��o do padr�o e valida��o/verifica��o.

A premissa do Data Mining � uma argumenta��o ativa, isto �, em vez do usu�rio definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e poss�veis relacionamentos, identificando assim problemas que n�o tinham sido identificados pelo usu�rio.

Em outras palavras, as ferramentas de Data Mining analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, e ent�o diagnosticam o comportamento dos neg�cios, requerendo a m�nima interven��o do usu�rio. Assim, ele se dedicar� somente a ir em busca do conhecimento e produzir mais vantagens competitivas.

Como podemos ver, as ferramentas de Data Mining, baseadas em algoritmos que forma a constru��o de blocos de intelig�ncia artificial, redes neurais, regras de indu��o, e l�gica de predicados, somente facilitam e auxiliam o trabalho dos analistas de neg�cio das empresas, ajudando as mesmas a conseguirem serem mais competitivas e maximizarem seus lucros.

Principais t�cnicas no Data Mining

O Data Mining (DM) descende fundamentalmente de 3 linhagens. A mais antiga delas � a estat�stica cl�ssica. Sem a estat�stica n�o seria poss�vel termos o DM, visto que a mesma � a base da maioria das tecnologias a partir das quais o DM � constru�do.

A segunda linhagem do DM � a Intelig�ncia Artificial (IA). Essa disciplina, que � constru�da a partir dos fundamentos da heur�stica, em oposto � estat�stica, tenta imitar a maneira como o homem pensa na resolu��o dos problemas estat�sticos.

Saiba mais: Curso de CSS na pr�tica

E a terceira e �ltima linhagem do DM � a chamada machine learning, que pode ser melhor descrita como o casamento entre a estat�stica e a Intelig�ncia Artificial. Enquanto a Intelig�ncia Artificial n�o se transformava em sucesso comercial, suas t�cnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de pre�o/performance oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplica��es devido �s suas combina��es entre heur�stica e an�lise estat�stica. Machine learning � uma disciplina cient�fica que se preocupa com o design e desenvolvimento de algoritmos que permitem que os computadores aprendam com base em dados, como a partir de dados do sensor ou bancos de dados. Um dos principais focos da Machine Learnig � automatizar o aprendizado para reconhecer padr�es complexos e tomar decis�es inteligentes baseadas em dados.

O Data Mining � um campo que compreende atualmente muitas ramifica��es importantes. Cada tipo de tecnologia tem suas pr�prias vantagens e desvantagens, do mesmo modo que nenhuma ferramenta consegue atender todas as necessidades em todas as aplica��es.

Existem in�meras ramifica��es de Data Mining, sendo algumas delas:

Redes neurais: s�o sistemas computacionais baseados numa aproxima��o � computa��o baseada em liga��es. N�s simples (ou "neur�es", "neur�nios", "processadores" ou "unidades") s�o interligados para formar uma rede de n�s - da� o termo "rede neural". A inspira��o original para esta t�cnica adv�m do exame das estruturas do c�rebro, em particular do exame de neur�nios. Exemplos de ferramentas: SPSS Neural Connection, IBM Neural Network Utility, NeuralWare NeuralWork Predict.
Indu��o de regras: a Indu��o de Regras, ou Rule Induction, refere-se � detec��o de tend�ncias dentro de grupos de dados, ou de �regras� sobre o dado. As regras s�o, ent�o, apresentadas aos usu�rios como uma lista �n�o encomendada�. Exemplos de ferramentas: IDIS da Information Discovey e Knowledge Seeker da Angoss Software.
�rvores de decis�o: baseiam-se numa an�lise que trabalha testando automaticamente todos os valores do dado para identificar aqueles que s�o fortemente associados com os itens de sa�da selecionados para exame. Os valores que s�o encontrados com forte associa��o s�o os progn�sticos chaves ou fatores explicativos, usualmente chamados de regras sobre o dado. Exemplos de ferramentas: Alice d�Isoft, Business Objects BusinessMiner, DataMind.
Analise de s�ries temporais: a estat�stica � a mais antiga tecnologia em DM, e � parte da funda��o b�sica de todas as outras tecnologias. Ela incorpora um envolvimento muito forte do usu�rio, exigindo engenheiros experientes, para construir modelos que descrevem o comportamento do dado atrav�s dos m�todos cl�ssicos de matem�tica. Interpretar os resultados dos modelos requer �expertise� especializada. O uso de t�cnicas de estat�stica tamb�m requer um trabalho muito forte de m�quinas/engenheiros. A an�lise de s�ries temporais � um exemplo disso, apesar de freq�entemente ser confundida como um g�nero mais simples de DM chamado �forecasting� (previs�o). Exemplos de ferramentas: S+, SAS, SPSS.
Visualiza��o: mapeia o dado sendo minerado de acordo com dimens�es especificadas. Nenhuma an�lise � executada pelo programa de DM al�m de manipula��o estat�stica b�sica. O usu�rio, ent�o, interpreta o dado enquanto olha para o monitor. O analista pode pesquisar a ferramenta depois para obter diferentes vis�es ou outras dimens�es. Exemplos de ferramentas: IBM Parallel Visual Explorer, SAS System, Advenced Visual Systems (AVS) Express - Visualization Edition.

Conclus�o sobre Data Mining

No breve espa�o deste artigo, nossa principal miss�o foi introduzir um pouco do pensamento que est� por tr�s do Data Mining. Obviamente, ainda h� muito a se falar sobre o assunto (clustering, m�todos gen�ticos, minera��o em textos, roll up/drill down, etc), mas � importante notar que em praticamente todos esses casos o que se deseja � descobrir padr�es em volumes de dados. � importante ressaltar tamb�m que o Data Mining n�o � o final da atividade de descoberta de conhecimentos, mas � t�o somente o in�cio. � imprescind�vel (ao menos com a tecnologia atual) dispor de analistas capacitados que saibam interagir com os sistemas de forma a conduzi-los para uma extra��o de padr�es �teis e relevantes.

Links �teis

Java Streams API - Trabalhando com cole��es:
Descubra neste exemplo de Java sobre Streams API como trabalhar com Collections de forma simplificada, reduzindo a quantidade de c�digo escrito para tarefas comuns como sort, filter e map.
$_POST e $_GET: Acessando informa��es de formul�rios em PHP:
Neste conte�do voc� aprender� a acessar informa��es passadas por formul�rios no PHP com as vari�veis globais $_GET e $_POST.
PHP Exceptions: Trabalhando com exce��es em PHP:
Neste curso voc� aprender� a lidar com exce��es em suas aplica��es PHP Veremos como o programa se comporta ao ser lan�ada uma exce��o.

Saiba mais sobre Engenharia de Software ;)

Gest�o de Projeto:
Neste guia voc� encontrar� o conte�do que precisa para saber como gerenciar projetos de software. Confira abaixo a sequ�ncia de posts que te guiar�o do b�sico ao avan�ado em Gest�o de Projetos.
Modelagem de Processos de Neg�cio:
Neste guia de consulta voc� encontrar� diversos conte�dos que podem ser usados ao longo dos seus estudos sobre a Modelagem de Processos de Neg�cios, explorando t�cnicas e ferramentas relacionadas a essa atividade.
Requisitos, Modelagem e UML:
Neste guia voc� encontrar� o conte�do que precisa para saber como elicitar requisitos, gerenci�-los e modelar o software com as principais t�cnicas do mercado. Abaixo, confira os posts que te auxiliar�o ao longo desse aprendizado.

Refer�ncias

Wikip�dia:: http://en.wikipedia.org/wiki/Machine_learning - acessado no dia 23/11/2010 �s 09:20
Wikip�dia:: http://pt.wikipedia.org/wiki/Data_mining - acessado em 19/08/2010 �s 20:00
Livros: Waltz, David; Hong, Se June (1999) Data Mining: A Long-Term Dream. IEEE Intelligent Systems Vol 14, No. 6.; Han, Jiawei; Chen, Ming-Syan; Yu, Philip S. (1996) Data Mining: An Overview from Database Perspective

Artigo relacionado: Novos Recursos nos Sistemas de Banco de Dados para Data mining

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Jefferson Em 2011

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Conceitos e T�cnicas sobre Data Mining

Este artigo tem como objetivo introduzir os conceitos b�sicos sobre a tecnologia Data Mining - Minera��o de Dados.