Machine Learning: recomendação de conteúdo com Mahout e Hadoop

Por que eu devo ler este artigo:Cada vez mais os cen�rios de recomenda��o de conte�do s�o explorados por portais de conte�do e e-commerce, possibilitando a identifica��o autom�tica das prefer�ncias dos usu�rios com o objetivo de sugerir novos itens ou conte�dos de seu interesse. Neste artigo, apresentaremos uma introdu��o a esse assunto utilizando a API de machine learning da Apache (Apache Mahout) e um sistema de processamento distribu�do (Hadoop) para construir um recomendador de v�deos inteligente e escal�vel.

Com uma grande quantidade de informa��es e uma extensa variedade de produtos e servi�os, cada vez mais nos deparamos com dificuldades para escolher entre as alternativas apresentadas. Frente a este cen�rio, geralmente confiamos nas recomenda��es que s�o passadas por outras pessoas e tomamos como base sua satisfa��o em rela��o �quilo que est�o nos recomendando. Essas recomenda��es acontecem de muitas formas, normalmente atrav�s de jornais, revistas, revisores de filmes e livros, entre outros.

O objetivo de um sistema de recomenda��o � melhorar a capacidade do processo de indica��o, muito comum na rela��o social entre seres humanos. Nesses sistemas, os usu�rios fornecem as recomenda��es como entrada e o sistema as direciona para os indiv�duos potencialmente interessados; como acontece no Netflix, quando classificamos um filme indicando o n�mero de estrelas. Um dos grandes desafios desse tipo de sistema � realizar o casamento correto entre as pessoas que est�o recomendando e as pessoas que est�o recebendo a recomenda��o. Esse relacionamento � conhecido como relacionamento de interesse. Entre as principais t�cnicas para recomenda��o de conte�do, podemos destacar a filtragem demogr�fica e a filtragem colaborativa.

A filtragem demogr�fica utiliza a descri��o de um indiv�duo para aprender o relacionamento entre um item em particular e o tipo de indiv�duo que poderia se interessar por ele. Nessa abordagem, os dados pessoais do usu�rio s�o requisitados atrav�s de formul�rios e combinados com o seu perfil de consumo, permitindo estabelecer um relacionamento de interesse para cada tipo de indiv�duo. J� na filtragem colaborativa, esse relacionamento � determinado atrav�s do comportamento comum de diferentes usu�rios, ou seja, a filtragem colaborativa considera que existe um perfil de consumo comum entre as pessoas que gostam das mesmas coisas. Essa abordagem � vantajosa porque n�o precisa coletar mais informa��es sobre o usu�rio, al�m das informa��es sobre o seu comportamento de consumo no pr�prio portal.

� muito comum um usu�rio gostar de diversos itens do mesmo portal, e ao mapear todos esses interesses, geramos um grande volume de dados. Isso acontece porque os portais oferecem uma grande quantidade de produtos, e cada produto visitado precisa gerar um log de acesso. Lidar com esse volume de dados nos leva a um cen�rio de Big Data, quando muitas vezes temos a necessidade de realizar processamento paralelo e distribu�do. Isso se torna ainda mais importante quando aplicamos algoritmos de machine learning, que normalmente s�o caros do ponto de vista computacional. Felizmente, para isso, podemos contar com a ajuda do Apache Mahout e do Hadoop.

O Apache Mahout � uma biblioteca de machine learning de c�digo aberto cujos principais objetivos s�o: processar recomenda��es, classifica��es e agrupamentos. Mantido pela Apache Software Foundation, o Mahout nasceu em 2008 como um subprojeto do Apache Lucene, outra ferramenta de c�digo aberto destinada a problemas de busca e recupera��o de informa��es. Em 2010 o Apache Mahout se tornou um projeto de software independente, que visa escalabilidade e efici�ncia. Por isso compatibilizou seus algoritmos com o Hadoop.

O Hadoop, por sua vez, � uma ferramenta de c�digo aberto que implementa o paradigma Map-Reduce, introduzido pelo Google e criado para realizar processamento paralelo e distribu�do. Assim, o Hadoop � capaz de processar grandes conjuntos de dados dividindo uma tarefa em pequenas partes e processando essas partes em m�quinas distintas.

Este artigo mostra como utilizar o Apache Mahout e o Hadoop para construir um recomendador de v�deos inteligente e escal�vel. Em nosso experimento utilizaremos a base de dados aberta MovieLens, que � provida por um grupo de estudo especialista em recomenda��o de conte�do da Universidade de Minnesota.

Apache Mahout

Como visto anteriormente, o Mahout � uma biblioteca de machine learning mantida pela Apache Software Foundation cujo objetivo � facilitar o uso de algoritmos de aprendizado de m�quina quando utilizados em sistemas de processamento distribu�do. Quando falamos em machine learning ou aprendizado de m�quina, em portugu�s, estamos nos referindo a um conjunto de t�cnicas que permitem a uma m�quina melhorar suas an�lises a partir de resultados obtidos anteriormente. Essas t�cnicas s�o muito exploradas pela minera��o de dados e usam principalmente m�todos estat�sticos e probabil�sticos, bem como reconhecimento de padr�es e outras ferramentas matem�ticas. Embora n�o seja uma �rea de estudo nova, est� em pleno crescimento, tanto que grandes corpora��es, como Amazon, Facebook e Google, utilizam algoritmos desse tipo em muitas de suas aplica��es.

Esses algoritmos s�o implementados em diversos tipos de aplica��es, como: jogos, sistemas de detec��o de fraudes, an�lise da bolsa de valores, forecast de pre�o, entre outros. Eles tamb�m s�o muito comuns em sistemas de recomenda��o, como os da Amazon e Netflix, que sugerem produtos aos usu�rios com base em compras/visualiza��es anteriores.

O aprendizado de m�quina permite solucionar problemas a partir de duas abordagens: o aprendizado supervisionado e o aprendizado n�o supervisionado.

Aprendizado supervisionado

O aprendizado supervisionado consiste em aprender uma fun��o a partir de um conjunto de dados de treinamento, previamente rotulados. Ap�s o treinamento, a m�quina se torna apta a classificar um novo dado com base nas regras aprendidas durante o treino.

Muitos problemas podem ser solucionados a partir do aprendizado supervisionado, tais como: classificar mensagens de e-mail como spam, rotular p�ginas da web de acordo com o g�nero, reconhecimento de imagens, etc. Para solucionar esses problemas podemos utilizar diversos algoritmos, por exemplo: Redes Neurais Artificiais, M�quinas de Vetor de Suporte (SVM) e classificadores Bayesianos.

Aprendizado n�o supervisionado

No aprendizado n�o supervisionado n�o existe uma fase inicial de treinamento, pois seu prop�sito � indicar o significado dos dados. Essa t�cnica normalmente � utilizada para segmentar os dados e formar grupos l�gicos, possibilitando identificar novas tend�ncias e comportamentos.

Os algoritmos de aprendizado n�o supervisionado geralmente s�o utilizados para mapear padr�es de consumo, bem como efetuar recomenda��es. Entre os principais algoritmos de aprendizado n�o supervisionado, podemos destacar: algoritmos de agrupamento e filtragem colaborativa.

Recursos do Apache Mahout

Os algoritmos oferecidos pelo Mahout se dividem em quatro grupos: filtragem colaborativa, algoritmos de classifica��o, algoritmos de agrupamento e algoritmos de redu��o de dimensionalidade. Todos eles podem ser utilizados via API e a maior parte deles tamb�m pode ser utilizada via linha de comando, atrav�s de shell interativo.

Hadoop

Como vimos anteriormente, o Hadoop � uma ferramenta de Map-Reduce que permite realizar processamento paralelo e distribu�do. Ele � formado por dois componentes principais: o Hadoop Distributed File System (HDFS), que armazena e manipula os dados que ser�o processados pelas m�quinas que comp�em o cluster; e o Map-Reduce, que gerencia todo o processamento realizado pelo cluster de m�quinas. A Figura 1 ilustra esses dois componentes.

Figura 1. Componentes do Hadoop.

Hadoop Distributed File System (HDFS)

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Apache

Java

XML

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

<Saiba por que programar é uma questão de sobrevivência e como aprender sem riscos/>

Perguntas frequentes

Quem somos?

A DevMedia é uma escola de formação de programadores com mais de 20 anos de mercado. Já formamos mais de 100 mil programadores. A DevMedia ensina programação web, (desenvolvimento de site e aplicativos para celulares). A programação web é a área que mais contrata programadores em todo o mundo, sendo a maior porta de entrada para a área da tecnologia.

Por que a programação se tornou a profissão mais promissora da atualidade?

Nunca o mundo necessitou tanto de programadores como atualmente. Com a quarentena estabelecida pela Covid-19, lojas, restaurantes, escritórios e escolas, que tiveram suas atividades paralisadas, perceberam a urgente necessidade de adaptar seus negócios para o mundo digital. Em contrapartida as empresas de tecnologias, durante esse período, cresceram como nunca tanto em faturamento quanto em número de usuários. Com isso a necessidade de programadores cresceu muito. Empresas de grande e pequeno porte estão com vagas abertas e não conseguem contratar por falta de profissionais qualificados. No momento estima-se que o número de oportunidades no Brasil seja acima de 200 mil!

Como faço para começar a estudar?

Programação é um universo amplo, existem muitos caminhos e por isso é muito fácil se perder. Nosso conselho é: NÃO ESTUDE SOZINHO. Infelizmente 78% das pessoas que começam a estudar sozinhas desistem da profissão por não conseguirem aprender. Com uma boa orientação elas teriam conseguido! Se você tomou a decisão de entrar nesse mercado, faça um investimento no seu futuro e busque aprender com quem sabe. Isso vai triplicar suas chances de dominar a programação e conquistar uma vaga no mercado.

Em quanto tempo de estudo vou me tornar um programador?

O tempo depende, claro, da dedicação de cada estudante. A DevMedia ensina programação há 20 anos e com toda essa experiência montamos uma metodologia que tem como objetivo principal acelerar os seus estudos. Você terá um Plano de Estudo para te orientar em todos os passos do aprendizado. Desenvolverá diversos projetos reais para colocar em prática os conhecimentos e contará com o melhor suporte ao aluno da web. Todas as suas dúvidas serão respondidas de imediato. Seguindo nossa metodologia e se dedicando, entre 6 meses e um ano você já estará programando.

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

Ser programador é uma das maiores oportunidades que o Brasil oferece para quem não tem condições de fazer uma faculdade. Muitas empresas contratam sem fazer questão de diploma, o que importa para elas é que o candidato seja um bom técnico e consiga atender suas necessidades. Os salários iniciais para programadores são de R$2.500 mil, podendo chegar aos R$15 mil para aqueles que se dedicam. Com disciplina e um estudo correto, que não te faça perder tempo, é possível se tornar um programador em menos de um ano de estudo. Quando você já estiver empregado, aí sim você pode se aprimorar ainda mais fazendo uma faculdade na área.

O que eu irei aprender estudando pela DevMedia?

Nossas trilhas de estudo te permitem virar um programador Full Stack, que é aquele programador mais completo, ele domina o desenvolvimento Front-end, Back-end e Mobile. Você ficará apto para criar sistemas para computadores e aplicativos para celulares. Utilizamos como base a linguagem JavaScript que é a linguagem mais utilizada no mundo. Outra vantagem do JavaScript é a quantidade de oportunidades no mercado de trabalho. É sem dúvida a linguagem que mais possui vagas e a que mais dá oportunidade para os iniciantes.

Principais diferenciais da DevMedia

Suporte ao aluno - O aluno conta com a ajuda de professores para tirar dúvidas durante toda a jornada de ensino. As perguntas são respondidas em menos de uma hora por professores experientes e atuantes no mercado. Gamificação - A plataforma de ensino é divertida e motivante. É como se o aluno estivesse dentro de um game. Ele terá seu card pessoal, que poderá ser customizado utilizando as moedas que ele ganha quando acerta os exercícios. Ele poderá também trocar suas moedas por outros produtos dentro da plataforma. Além disso, seus acertos contam pontos no ranking mensal dos alunos. Tudo isso deixa os estudos mais leves e motivantes. Didática - A DevMedia já ensina programação há mais de 20 anos. Desenvolvemos ao longo desse tempo uma metodologia que ensina a programar de verdade, com menos aulas e mais prática, são dezenas de projetos e exercícios que desenvolvem a mente programadora no aluno. Projetos reais - Durante os estudos os alunos irão desenvolver dezenas de projetos em cada uma das carreira (front-end, back-end e mobile). Mas o principal é que os projetos da DevMedia não são “copia e cola” como se encontra por aí. Aqui o aluno vai desenvolver os projetos de forma autônoma, recebendo claro a nossa mentoria e suporte, mas o aluno terá condições para desenvolvê-los sozinho. Milhares de exercícios - Programação é prática, por isso a cada nova matéria o aluno passará por um bloco de exercícios para fixar o conteúdo e cada acerto será bonificado com pontos e moedas e valem uma posição no ranking dos alunos.

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Na internet é possível encontrar cursos de todos os preços, desde 50,00 a R$15.000,00. Os cursos de 50,00 são cursos avulsos, que explicam apenas pedaços de uma determinada matéria. Para criar um conhecimento completo você precisaria comprar no mínimo de 15 a 20 cursos avulsos e correria o risco deles não se complementarem tão perfeitamente e seu conhecimento ficaria cheio de "buracos". Os cursos de R$15.000,00 não fazem nenhum sentido. Deixe para investir em cursos caros quando quiser se especializar. Por esse preço você pode inclusive estudar fora do pais. Na DevMedia, você terá um plano de estudo montado por quem já formou mais de 100 mil alunos, e já está nesse mercado há mais de 20 anos. Somos a única plataforma que oferece Suporte ao Aluno em tempo real e uma experiência de estudos gamificada para te manter motivado durante todo o período de estudo. E o melhor, nosso pagamento é recorrente, você não precisa usar o limite do seu cartão de crédito para investir no seu futuro. Aproveite para se matricular agora mesmo.

Como funciona a forma de pagamento da DevMedia?

Para que você possa investir nos seus estudos sem complicar sua vida financeira, a DevMedia cobra o valor da assinatura de forma recorrente, Igual o Netflix. Todos os meses debitamos o valor da parcela em seu cartão de crédito, sem comprometer o limite total do cartão. :) As primeiras 3 parcelas custam R$89,90 e a partir do 4o mês sua parcela diminui para R$49,90! Assim ela pesa cada vez manos no seu bolso! Nesse modelo, a gente te ajuda a pagar seus estudos, mas você precisa ajudar a gente a pagar nossos custos. Por isso a assinatura recorrente tem uma fidelidade de um ano. Essa fidelidade também vai te ajudar a se manter comprometido com os seus estudos. Temos um trato?

Por Everton Em 2017

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Claudio Resende
N�vel

Seria, com esse recurso que sites como Buscap�, zoom, decolar, skyscanner,
encontram os melhores pre�os?

há +1 ano

Ver coment�rios anteriores (3)

Eduardo Spinola
N�vel 0

Oi, Claudio!

Complementando a resposta de Joel, em Java existem v�rias ferramentas que voc� pode utilizar para isso. A seguir listo algumas delas, que voc� pode utilizar para atender ao que precisa:
Apache Hadoop - https://www.devmedia.com.br/big-data-hadoop-facilitando-a-construcao-de-aplicacoes/30903
Apache Pig - http://www.devmedia.com.br/big-data-conhecendo-o-apache-pig/31534
Apache Hive - http://www.devmedia.com.br/conhecendo-o-apache-hive/33298
Apache Mahout - http://www.devmedia.com.br/descobrindo-o-apache-mahout/30435
Apache Storm - http://www.devmedia.com.br/storm-vs-spark-uma-introducao-a-fast-data/33048
Apache Spark - http://www.devmedia.com.br/storm-vs-spark-uma-introducao-a-fast-data/33048
Elasticsearch - https://www.devmedia.com.br/elasticsearch-realizando-buscas-no-big-data/32180

Como voc� pode notar, a Funda��o Apache oferece v�rias solu��es de apoio, e aqui na DevMedia voc� encontra conte�do sobre todas essas que citei. =D

Com elas voc� deve conseguir implementar o que precisa, no entanto, como j� mencionado por Joel, para facilitar esse trabalho de minera��o de dados na web, � comum que os grandes e-commerces definam um padr�o com esses sites de verifica��o de melhor pre�o.

Isso � positivo para ambos: o e-commerce n�o precisar� "gastar" processamento com v�rios acessos que n�o s�o de usu�rios interessados em comprar algum produto, e esses "buscadores" n�o precisar�o processar imensas quantidades de dados para extrair, basicamente, uma imagem, um pre�o e uma descri��o.

Com base nisso, pode ser interessante voc� verificar se os e-commerces que voc� deseja verificar o pre�o j� n�o oferecem alguma Web API com esse intuito. Para e-commerces menores, provavelmente o caminho ser� o mais "custoso", tanto em termos de processamento quanto em termos de desenvolvimento.

Abra�os

há +1 ano

Rodrigo
N�vel

s� mais um detalhe, esta meio vago as coisas, por exemplo um outro problema que estou enfrentando, coloquei o arquivo de configura��o do hadoop e quando tento executar o comando de formata��o � exibido que o comando n�o � reconhecido

há +1 ano

Diogo Souza
N�vel 0

Opa Rodrigo, qual comando exatamente?

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso