Mineração de dados com Orange

Por que eu devo ler este artigo:Este artigo aborda as principais defini��es relacionadas � minera��o de dados, mostrando as fases do processo de busca de conhecimento em bancos de dados (KDD), o funcionamento das regras de associa��o e um estudo de caso mostrando a ferramenta Orange no uso pr�tico de um algoritmo de classifica��o.

O artigo � �til principalmente para estudantes e profissionais de minera��o de dados, que buscam uma ferramenta gratuita para implementa��o e uso pr�tico de algoritmos que possam auxiliar na busca de respostas em bases de dados usando minera��o.
Autores: Adriano Geraldo Dias Ferreira e Larissa Pereira

A minera��o de dados � por defini��o o m�todo utilizado para a descoberta de conhecimento em grandes bases de dados, convencionais ou n�o, e faz uso de algoritmos diversos, utilizando estat�stica e t�cnicas de intelig�ncia artificial na busca de rela��es de similaridade ou mesmo discord�ncia entre dados.

O resultado final deste processo tem por objetivo principal descobrir informa��es relevantes que possam auxiliar os gestores nas suas decis�es.

A tarefa de minera��o de dados pode ser vista como um processo de explora��o e an�lise, por meio autom�tico ou semiautom�tico, de grandes quantidades de dados, com o objetivo de descobrir padr�es que sejam significativos.

Al�m disto, o processo de minerar dados possui duas vertentes principais, onde em uma delas se pretende �analisar o passado� e na outra �predizer o futuro�.

A minera��o de dados envolve v�rios objetos de estudo, combinando disciplinas t�o diversas quanto estat�stica, intelig�ncia artificial, aprendizagem de m�quina, banco de dados e data warehouse.

Na maioria das vezes, o processo de minera��o de dados possui um alto custo de implementa��o, muitas vezes pelo tamanho do projeto proposto que precisa explorar volumosas bases de dados, acumuladas ao longo dos anos de opera��o de uma empresa.

O in�cio hist�rico da minera��o de dados acontece a partir dad�cada de 90, com sua utiliza��o em pesquisas cient�ficas, com o interesse e crescimento evidenciado mais especificamente a partir de 1997, com cases e ocorr�ncias em grandes atacadistas, no mercado financeiro, governamental e industrial.

V�rios t�m sido os motivadores para o uso comercial e cient�fico da minera��o de dados em diferentes �reas de estudo e mesmo ci�ncias aplicadas.

Na �rea comercial, o uso da minera��o � evidenciado principalmente pelo crescimento no n�mero de dados armazenados pelas empresas. S�o dados de compras e navega��o pela internet, dados de transa��es banc�rias, ou do uso de cart�es de cr�dito. Pode-se considerar tamb�m a press�o por competi��o nas empresas e o barateamento e pot�ncia cada vez maior dos computadores.

Para as ci�ncias, a coleta e armazenamento de dados a altas velocidades (Gb/hora) e os resultados da produ��o cient�fica gerando terabytes de dados, provenientes de telesc�pios, sensores remotos em sat�lites, microarrays que podem gerar dados de express�es de genes, sendo que muitas vezes as t�cnicas tradicionais n�o s�o hoje apropriadas para analisar tais dados, gerando ru�dos e grande dimensionalidade nos resultados produzidos.

Se forem consideradas as leis, como motivadores para o desenvolvimento desta ci�ncia ainda temos a Lei de Moore e sua capacidade de processamento que dobra a cada 18 meses, em termos de CPU, mem�ria, cach� e a capacidade de armazenamento que dobra a cada 10 meses. Se combinarmos as duas leis (processamento e armazenamento), produzir�amos um �Gap� cada vez mais crescente entre nossa capacidade de gerar dados e nossa habilidade de fazer uso eficiente deles.

Um exemplo deste crescimento constante no n�mero de dados armazenados seria o da Biblioteca do Congresso (EUA), que possui aproximadamente 10 terabytes de texto e aproximadamente 3 petabytes (v�deos, �udio, etc.) e isto em pesquisa de 2007. Se considerarmos que a maior parte dos dados no qual falamos nunca foi vista por um ser humano, estes motivadores aumentam mais ainda.

S�o exemplos de tarefas abordadas em minera��o de dados: modelagem preditiva (classifica��o, regress�o), segmenta��o (clustering), afinidade (sum�rio/resumo dos dados), rela��es (entre campos, associa��o e visualiza��o).

Na maioria dos casos, a minera��o tem processo baseado em OLAP (On-Line Analytical Process) e n�o mais no tradicional SQL (Structured Query Language). S�o, portanto, etapas de seu processo a sele��o e depura��o dos dados, transforma��o dos dados, o pr�prio processo de mining (Minera��o), interpreta��o, avalia��o e por fim, a integra��o final e resultado.

Estas etapas fazem parte do KDD (Knowledge Discovery in Databases), que ser� mais bem detalhado no pr�ximo t�pico deste artigo.

A minera��o e o processo KDD

O termo que representa o processo que transforma dados de baixo n�vel em conhecimento de alto n�vel � conhecido como KDD. A minera��o de dados � uma das etapas deste processo e que pode ser entendida como a extra��o de padr�es ou modelos de dados observados para avalia��o e descoberta de conhecimento.

Para um projeto de minera��o eficiente e que consiga produzir conhecimento necess�rio e utiliz�vel, s�o necess�rios cuidados nas diversas etapas compostas pelo processo de descoberta de conhecimento em bases de dados, que descritos em fases seriam:

Fase 1: Defini��o e compreens�o do dom�nio do problema a analisar. Esta fase representa o processo inicial da defini��o de objetivos a serem atingidos e deve prever que profissionais que participam da equipe de projeto precisam ter conhecimentos pr�vios e relevantes sobre o que vai ser tratado e com qual informa��o ir�o trabalhar.

Esta � a fase em que se avaliam a viabilidade do projeto a partir da determina��o do escopo e custos. N�o faz parte das etapas descritas na Figura 1, pois deve acontecer antes do processo de sele��o dos dados.

Figura 1. O Processo de KDD

Fase 2: Sele��o e Amostragem. Esta � uma fase de extrema import�ncia para o projeto de minera��o e requer cuidados extras, j� que seria nesta fase que os dados v�o ser selecionados para a composi��o do conjunto de dados, para a cria��o de nova base de dados ou mesmo para a defini��o da amostra a ser uti ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Devmedia Em 2014

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Minera��o de dados com Orange

Veremos nesse artigo um estudo de caso de associa��o. H� v�rias ferramentas gratuitas para o uso acad�mico e comercial de algoritmos de minera��o, que podem suprir necessidades relacionadas � descoberta de conhecimento em bases de dados.