Descobrindo o Apache Mahout

Por que eu devo ler este artigo:Este artigo ir� abordar os aspectos principais da ferramenta Apache Mahout, criada com base no Apache Hadoop, e mostrar� exemplos de como usar essa ferramenta para aplica��es de recomenda��o, clustering e classifica��o de dados.

Esse tema � �til para desenvolvedores que tenham interesse em ferramentas de an�lise e classifica��o de dados e em formas inovadoras de utilizar algoritmos que visam melhorar a efici�ncia e a relev�ncia do processamento de informa��es atrav�s da aplica��o de t�cnicas de intelig�ncia artificial e de Machine Learning.

O tr�fego de dados � um fator em constante crescimento nas redes de computadores atuais, tornando, cada vez mais, a etapa de processamento e an�lise mais complexa e custosa computacionalmente.

Propondo alternativas eficientes para tratar esse aumento de informa��es, o t�pico denominado Big Data, que estuda maneiras de analisar, manipular e armazenar grandes quantias de dados, vem se mostrando um desafio (e uma oportunidade de avan�o) para a tecnologia atual e dos pr�ximos anos.

Dentro desse contexto, em 2005, foi criado o Apache Hadoop, um framework open source cujas principais fun��es s�o o processamento e o armazenamento de dados em grande escala.

O conceito de MapReduce, implementado dentro do Hadoop, nos possibilita trabalhar com grandes quantidades de informa��es em m�ltiplos processos em paralelo, facilitando, assim, o manuseio desses gigantescos peda�os de dados.

Com uma vis�o das possibilidades que o Apache Hadoop trouxe para a computa��o e programa��o, em 2009 foi lan�ada a primeira vers�o do Apache Mahout. A ideia por tr�s deste projeto foi de utilizar o MapReduce j� implementado no Hadoop e construir, em cima deste framework, algoritmos complexos da computa��o relacionados a Machine Learning e aplicados no campo de an�lise de dados em grande escala.

Deste modo, esses algoritmos e os principais aspectos do Mahout e do Machine Learning s�o os assuntos a serem discutidos neste artigo, acompanhados de dois exemplos pr�ticos, que demonstram uma aplica��o simples de recomenda��o e outra, mais complexa, que � capaz de analisar e classificar os textos.

O que � Machine Learning?

Machine Learning � um t�pico presente no ramo da Intelig�ncia Artificial, cujo prop�sito � estudar e analisar sistemas que �aprendem� com dados, ou seja, que s�o capazes de se aprimorar e tomar decis�es mais realistas analisando um determinado conjunto de informa��es.

Apesar de ser uma defini��o antiga (a primeira defini��o de Machine Learning foi feita em 1959, por Arthur Samuel), temos acompanhado, nos �ltimos meses, um avan�o consider�vel no campo e, cada vez mais, o t�pico vem ganhando import�ncia dentro das discuss�es de pesquisadores renomados ao redor do mundo.

Todo esse foco se deve, principalmente, � necessidade de trabalharmos com grandes volumes de dados e, devido a isso, sermos capazes de distinguir o que realmente � relevante ao nosso sistema de forma autom�tica e r�pida.

Atendendo a essa necessidade e se mostrando bem efetivos, os algoritmos de Machine Learning aplicam conceitos de Intelig�ncia Artificial para realizar o tratamento das informa��es, apresentando-se como favoritos no campo de an�lise de dados. Como exemplos desses algoritmos, podemos citar as Redes Neurais, K-Means para Clustering e Redes Bayesianas, todos j� bastante conhecidos e estudados na inform�tica.

Mahout e a an�lise de dados

Esses algoritmos, no entanto, apresentam diversos problemas em rela��o � complexidade de desenvolvimento e � performance de execu��o que, em casos de grandes quantidades de dados, pode ser bastante lenta. Vendo esses fatores, a Apache aproveitou a oportunidade e criou uma API r�pida, f�cil e que permite aos desenvolvedores utilizar algoritmos complexos sem se preocupar com suas implementa��es, o denominado Apache Mahout.

As bibliotecas criadas dentro dessa ferramenta, por sua vez, dividem-se na implementa��o de solu��es para tr�s temas principais do Machine Learning: recomenda��o (capacidade de recomendar um item com base no perfil e nas escolhas anteriores do usu�rio), clustering (solu��o para analisar o conte�do de arquivos e agrupar dados semelhantes em �clusters� ou agrupamentos de informa��o) e classifica��o (atividade de ler, analisar e classificar dados, aplicando o mesmo tipo de classifica��o para conte�dos com caracter�sticas em comum).

Esses elementos t�m bastante import�ncia no campo da inform�tica atual, como, por exemplo, em empresas de Web Commerce que j� incorporam algoritmos de recomenda��o em suas p�ginas principais, em algoritmos de busca na Web que procuram, atrav�s de t�cnicas de Clustering, dim ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO