Apache Spark: Como criar um mecanismo de sugest�o de produtos

Por que eu devo ler este artigo:Esse artigo � �til para estudantes e profissionais que desejam adicionar capacidade de aprendizado de m�quina aos seus sistemas web. Gigantes como a Amazon, Google e Ebay j� usam esse tipo de mecanismo h� anos, por�m os avan�os motivados pela populariza��o do Big Data e de Computa��o em Nuvem permitem hoje que essas tecnologias estejam acess�veis para qualquer desenvolvedor Java.

Nesse aspecto, o Apache Spark se destaca por oferecer uma maneira simples, r�pida e altamente escal�vel para o desenvolvimento de sistemas baseados em Aprendizado de M�quina.

Assim, esse artigo demonstra o uso do Apache Spark em um mecanismo para um e-commerce hipot�tico, no qual os clientes recebem sugest�es de produtos a partir de recomenda��es feitas por outros usu�rios.

Para completar a aplica��o, os dados s�o armazenados no Elasticsearch, em uma arquitetura inspirada na Arquitetura Lambda, um padr�o no desenvolvimento de software para Big Data que facilita a organiza��o e o entendimento das aplica��es.
Autores:Luiz Henrique Zambom Santana e Eduardo Felipe Zambom Santana

Atualmente a Amazon, maior e-commerce do mundo, possui em seu estoque cerca de 400 mil livros sobre TI, mais de 1 milh�o de livros classificados como Matem�tica e Ci�ncias e quase dois milh�es categorizados em Neg�cios e Finan�as.

Seria imposs�vel analisar todos esses livros de forma manual (considerando que cada p�gina demore um segundo para ser carregada, seria necess�rio quase uma semana de acesso cont�nuo para visualizar apenas os livros de TI).

Por isso, os sistemas computacionais, especialmente os de e-commerce, investem cada vez mais em mecanismos de buscas e formas de sumarizar, apresentar e recomendar produtos que facilitem a vida de seus clientes na tarefa de encontrar seu produto ideal.

Como uma das respostas � dificuldade das pessoas em escolher entre uma grande variedade de produtos e servi�os, muitos sistemas de recomenda��o foram sugeridos.

A evolu��o destes sistemas e o fato deles trabalharem com grandes bases de informa��es permitiram que recomenda��es computacionais pudessem ter � muitas vezes � uma credibilidade maior que uma indica��o humana. Os mecanismos desse tipo normalmente usam algum modelo de Aprendizado de M�quina, dentre os quais se destaca a Filtragem Colaborativa, proposta no in�cio dos anos 90.

Nessa �poca, os autores do Tapestry, um dos primeiros sistemas de recomenda��o, cunharam a express�o �Filtragem Colaborativa�, pois esse sistema recomenda informa��es com o aux�lio humano, ou seja, filtra conte�dos via a colabora��o de grupos de interessados.

Gigantes como a Amazon, Google e Ebay j� usam esse tipo de mecanismo h� anos, por�m os avan�os motivados pela populariza��o do Big Data e de Computa��o em Nuvem permitem hoje que essas tecnologias estejam acess�veis a e-commerces de qualquer tamanho. Nesse aspecto, o Apache Spark se destaca por oferecer uma maneira simples, r�pida e altamente escal�vel para o desenvolvimento de sistemas baseados em Aprendizado de M�quina.

Usando o Spark, sites de e-commerce � infinitamente menores que a Amazon � podem ter acesso ao mesmo tipo de mecanismo, melhorando a experi�ncia de uso de seus sistemas e, principalmente, alavancando suas vendas. Para isso, o Spark oferece pr�-implementadas as fun��es de Filtragem Colaborativa.

Ao longo dos anos, v�rios pesquisadores acabaram adotando esta terminologia para denominar qualquer tipo de sistema de recomenda��o, por�m � importante frisar que existem sistemas de recomenda��o sem nenhuma colabora��o entre as pessoas (por exemplo, quando as recomenda��es s�o baseadas no posicionamento geogr�fico).

Com base nesses conceitos, este artigo apresentar� o emprego do mecanismo de filtragem colaborativa dentro do Apache Spark, com especial foco em sistemas de e-commerce.

Ao longo do estudo, ser� mostrada a utiliza��o do MLlib � nome que reflete a sigla em ingl�s para biblioteca de aprendizado de m�quina �, componente do Spark que implementa distintos mecanismos de aprendizado de m�quina, incluindo a Filtragem Colaborativa.

Al�m disso, outros importantes aspectos do Spark ser�o abordados, dentre os quais ressaltamos: o mecanismo de clusters, o uso intensivo de mem�ria principal e a baixa lat�ncia, como principal requisito de projeto.

Conceitos principais

Os sistemas de recomenda��o visam determinar o conte�do mais relevante que deve ser apresentado para o usu�rio e s�o caracterizados por realizar filtragens � ou seja, sumarizar para escolher os itens mais relevantes � em um conjunto de conte�dos, que podem, por exemplo, ser produtos em um e-commerce, no ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO