Big Data: MapReduce na prática

Por que eu devo ler este artigo:

Este artigo aborda o uso do MapReduce na solu��o de um problema complexo, que � melhor resolvido com a t�cnica de algoritmos gen�ticos (AG). Apesar da natureza iterativa dos AGs, com algumas adapta��es � poss�vel construir aplica��es que necessitem de grande poder de processamento e que podem ser executadas de forma paralela e distribu�da no modelo MapReduce. Entre os softwares que podem ser beneficiados, h� algoritmos de intelig�ncia computacional, como AGs e redes neurais, e qualquer problema de otimiza��o que necessite encontrar boas respostas em situa��es que normalmente s�o dif�ceis de serem resolvidas com aplica��es tradicionais em uma �nica m�quina. Por exemplo, sistemas para identificar padr�es em biometria, formula��o de regras em jogos de estrat�gia, na busca de melhores rotas (caminhos) a serem percorridas em um conjunto de cidades, como � o caso do exemplo tratado neste artigo, entre outros.

Problemas que envolvem o tratamento de grandes conjuntos de dados t�m como solu��o ideal o uso de um modelo de processamento paralelo e distribu�do que se adapta a qualquer volume e grau de complexidade. Esse � o caso do MapReduce, uma t�cnica que abstrai os detalhes de paraleliza��o e distribui��o do processamento de dados, que pode ser utilizada em aplica��es que necessitem dessas caracter�sticas, como ocorre com algumas abordagens n�o triviais, a exemplo do tratamento do �big data� e do processamento de algoritmos de alta complexidade e escalabilidade.

Tais algoritmos podem ser empregados em diversas situa��es que envolvam resolver problemas de busca e otimiza��o, normalmente presentes em sistemas de tomada de decis�o e descoberta de conhecimento. Por exemplo, escolher qual a melhor empresa para investir o capital (quantia) na bolsa de valores; solucionar problemas de agendamento e planejamento de recursos; auxiliar na organiza��o e aloca��o de turmas a professores, presente na defini��o de grades hor�rias de trabalho; e qualquer situa��o que necessite uma boa solu��o (entre tantas), considerando as regras espec�ficas para o dom�nio do problema a fim de alcan�ar o melhor resultado poss�vel. Como podemos notar, s�o problemas complexos, muitas vezes de dif�cil solu��o e que envolvem significativas redu��es de custos, melhorias dos tempos de processos e/ou melhor aloca��o dos recursos em atividade.

Como o MapReduce pode ajudar na solu��o desses problemas? Em ess�ncia, a resposta est� na capacidade do poder de processamento paralelo e distribu�do da t�cnica, fatores que permitem alta escalabilidade � solu��o.

O MapReduce � baseado no paradigma de programa��o funcional, adotando duas fun��es que d�o nome ao modelo: a fun��o map e a fun��o reduce. Esse modelo estabelece uma abstra��o que permite construir aplica��es com opera��es simples, escondendo os detalhes da paraleliza��o. Em resumo, tais fun��es transformam um grande volume de dados de entrada em um conjunto resumido e agregado na sa�da, sendo cada fun��o executada em uma etapa distinta. Na primeira etapa, Map, uma fun��o de mapeamento distribui os dados em diversos n�s de processamento e armazenamento. Na segunda etapa, Reduce, uma fun��o agrega e sumariza os resultados obtidos no mapeamento, para gerar um resultado final.

A t�cnica MapReduce pode ser aplicada em v�rios campos, como o agrupamento de dados, aprendizado de m�quina e vis�o computacional. Outro exemplo de campo que pode adotar essa t�cnica � o da Intelig�ncia Computacional, em especial o dos Algoritmos Gen�ticos, que devem tratar uma grande base de dados (a chamada popula��o de indiv�duos) para localizar valores para uma tomada de decis�o. Tais algoritmos exigem um alto custo de processamento para ser executado em uma �nica m�quina, o que torna a t�cnica MapReduce ideal para ser adotada.

Com base nisso, este artigo demonstra o uso combinado da abordagem AG com MapReduce para resolver um tipo especial de problema complexo, chamado de �caixeiro viajante� (ou PCV). Este problema busca identificar os melhores caminhos para se percorrer um conjunto de cidades, visitando pelo menos uma vez cada cidade em um determinado percurso. O PCV envolve um n�mero de combina��es de caminhos de crescimento exponencial, em fun��o do n�mero de cidades, fato que o torna complexo para ser resolvido com algoritmos tradicionais. Para validar a t�cnica proposta (AGs adaptados ao modelo MapReduce), um cen�rio de teste foi aplicado para um conjunto de vinte cidades, o que demonstrou um bom desempenho na gera��o de boas respostas.

Pr�-requisitos

Este tutorial foi projetado para ser executado em um computador com sistema operacional Linux, seja nativo ou rodando em uma m�quina virtual (VMware ou VirtualBox, por exemplo), uma vez que o framework Hadoop (que implementa o MapReduce) utiliza tal ambiente. Em ambos os casos (nativo ou virtualizado), recomenda-se que a mem�ria principal tenha no m�nimo 1 Gigabyte e espa�o em disco suficiente para comportar a instala��o do pacote Hadoop. Por se tratar de uma aplica��o que simula a maioria dos dados em mem�ria, o espa�o em disco exigido � no m�nimo de 2 Gigabytes.

Al�m do espa�o da aplica��o, ao final foram utilizados aproximadamente dez gigabytes de espa�o em disco para a distribui��o Linux (Ubuntu, vers�o 12), para a instala��o do Apache Hadoop (vers�o 1.2) e para a IDE Eclipse (vers�o Kepler 4.2).

Algoritmos Gen�ticos

A otimiza��o � o processo de encontrar a melhor solu��o (ou solu��o �tima) de um conjunto de solu��es para um problema. Normalmente, tais problemas envolvem um procedimento para escolha otimizada de recursos, que pode ser de natureza temporal/cronol�gica, financeira/econ�mica, de espa�o f�sico, de prioriza��o de tarefas, etc. Sendo assim, um processo de otimiza��o procura, geralmente, maximizar lucros, minimizar perdas, realizar projetos econ�micos e seguros, maximizar a capacidade de transmiss�o de uma rede satisfazendo suas limita��es, escolher o melhor investimento, definir quando comprar e quando vender a��es na bolsa de valores, tra�ar o roteiro de viagem e muitos outros exemplos. Em s�ntese, quando se fala em otimiza��o, est� se pensando em maximizar ou minimizar uma fun��o, chamada de fun��o objetivo, sujeita a certas restri��es.

As t�cnicas de otimiza��o devem ser utilizadas quando n�o existe uma solu��o simples e diretamente calcul�vel para o problema. Isso geralmente ocorre quando a estrutura do problema � complexa ou existem muitas formas poss�veis de resolver. Nesses casos, � poss�vel que n�o exista uma equa��o direta ou um procedimento matem�tico ou algor�tmico para resolver o problema, de forma que uma t�cnica de otimiza��o seja a mais indicada para encontrar (ou se aproximar) da melhor resposta poss�vel para o problema.

Para aplicar uma t�cnica de otimiza��o, dois conceitos s�o relevantes: o espa�o de busca, �local� onde todas as poss�veis solu��es do problema se encontram; e a fun��o objetivo, utilizada para avaliar as solu��es produzidas, associando a cada uma delas um valor que denota uma nota ou peso a ser considerado na avalia��o.

O Algoritmo Gen�tico � uma t�cnica de otimiza��o inspirada no conceito da evolu��o natural das esp�cies. Essa t�cnica parte da ideia da sobreviv�ncia do indiv�duo mais apto em uma popula��o. Traduzindo para o contexto computacional, um indiv�duo pode ser a representa��o de uma informa��o em um conjunto de dados para um dom�nio particular, e o mais apto � o indiv�duo que est� pr�ximo da melhor informa��o que se tenta localizar no espa�o de busca (ou base de dados da solu��o). Dessa forma, um AG � um procedimento de otimiza��o para encontrar a melhor (ou melhores) resposta(s), sem a necessidade de explorar todas as solu��es poss�veis nesse espa�o de busca.

Para criar uma popula��o de poss�veis respostas para um problema, o AG usa um processo evolutivo. Em seguida, combina as melhores solu��es para criar uma nova gera��o de solu��es que deve ser melhor do que a gera��o anterior. Portanto, � um processo iterativo realizado em v�rias etapas (ou gera��es) constitu�do das seguintes atividades:

1. Inicializa��o: � a cria��o da popula��o inicial para o primeiro ciclo do algoritmo. A cria��o envolve produzir um conjunto de dados pertinentes com o contexto real do problema, podendo ser gerada aleatoriamente por meio de uma rotina autom�tica;

2. Avalia��o: Avalia-se a aptid�o das solu��es analisando a resposta de cada uma ao problema proposto;

3. Sele��o: Os indiv�duos s�o selecionados para combina��o das caracter�sticas (para a reprodu��o). A sele��o � baseada na aptid�o dos indiv�duos;

4. Cruzamento: Caracter�sticas das solu��es escolhidas s�o recombinadas, gerando novos indiv�duos;

5. Muta��o: Caracter�sticas dos indiv�duos resultantes do processo de reprodu��o s�o alteradas;

6. Atualiza��o: Os indiv�duos criados na itera��o da etapa corrente s�o inseridos na popula��o que ser� tratada na pr�xima itera��o;

7. Finaliza��o: Verifica se as condi��es de encerramento da evolu��o foram atingidas.

Em s�ntese, o processo inicia com a defini��o para o conceito de �indiv�duo�, que deve ser codificado em uma representa��o que possa estruturar os dados para a solu��o do problema. A popula��o inicial de indiv�duos � ent�o preparada, geralmente de forma aleat�ria, seguindo crit�rios estabelecidos a partir de uma fun��o objetivo, que define a aptid�o de cada indiv�duo ao contexto do problema. Essa aptid�o, u ...

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Devmedia Em 2015

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Daniel Reis.

N�vel

Apesar de n�o seguir cada passo do artigo,deu para perceber a qualidade do material! gostaria de parabenizar pelo material e principalmente pelo Problema a ser resolvido, sem aquele Helo Word tosco!!!

há +1 ano

Claudio Martins

N�vel 0

Obrigado, Daniel Reis.

Esse artigo � fruto de um trabalho final de conclus�o de curso (com o autor Wesley), que foi formatado (em conte�do e forma) para a Java Magazine.

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Big Data: MapReduce na pr�tica

Aprenda neste artigo uma das muitas op��es de como adotar o MapReduce em seu dia a dia.