Big Data na Plataforma Java

De que se trata o artigo:

Neste artigo apresentaremos uma vis�o conceitual sobre o que � big data, onde se originou, seus motivadores e principais usu�rios. Demonstraremos tamb�m modelos de programa��o como o MapReduce, assim como ferramentas Java para lidar com big data. E abordaremos, principalmente, ferramentas como o Hadoop, que trazem consigo um modelo robusto de programa��o distribu�da paralelizada para grandes conjuntos de dados.

Em que situa��o o tema � �til:

O surgimento de ferramentas e cen�rios para processar big data, principalmente relacionados � tecnologia Java, faz com que oportunidades de transformar grandes volumes de dados de empresas em informa��es ricas para decis�es sejam cada vez mais frequentes e poss�veis de realizar. Para estas empresas, a diferen�a para tirar vantagem nesta �rea em rela��o � concorr�ncia, pode estar na capacidade e criatividade de conseguir explorar eficientemente o big data, pois a ferramenta existe, � real e open-source.

Resumo DevMan:

Entender o conceito de big data ajudar� a compreender melhor qual � o papel desempenhado por ferramentas como o Hadoop. Ao longo do tempo, ser� mais comum o surgimento deste tipo de desafio em empresas que desejam explorar seu big data. Assim, neste artigo, desvendaremos de maneira pr�tica, com o objetivo de buscar o entendimento, de que forma podemos processar e explorar um grande conjunto de dados atrav�s do uso do MapReduce e ferramentas Java (Hadoop). Isto nos possibilita construir aplica��es big data em Java.

Com o constante crescimento e facilidade de acesso � tecnologia, cada vez mais e mais volumes de dados s�o produzidos. Diariamente, s�o gerados petabytes de informa��es envolvendo opera��es comerciais e financeiras, e mesmo no ambiente dom�stico � comum encontrar usu�rios que possuem discos de backup com capacidade de 1 terabyte ou mais.

E com este crescente acesso � tecnologia, empresas como Facebook, Yahoo! e Google culminaram coletando dados em uma escala sem precedentes, n�meros al�m do comum. Eles foram os primeiros a coletar toneladas de dados oriundos de milh�es de usu�rios. Arduamente, perceberam que os sistemas convencionais de armazenamento e processamento de dados n�o atenderiam a suas demandas. Deste modo, nos anos 2000, colocando seus melhores pensadores para criar, foram capazes de desenvolver novas t�cnicas como MapReduce, BigTable e o Google File System, para lidar com tais volumes e processamento. Assim, ap�s um per�odo utilizando estas tecnologias de forma privada, por volta do ano 2005, Facebook, Yahoo! e Google tomaram a iniciativa de compartilh�-las atrav�s da publica��o de �white papers�, descrevendo suas tecnologias para solu��es que requerem o manuseio de big data.

O termo big data � utilizado para referenciar conjuntos de dados de grande volume, o qual � praticamente invi�vel o manuseio com ferramentas e t�cnicas convencionais. Lidar com um grande volume de dados acarreta dificuldades no processamento, tais como: indexa��o, an�lise de padr�es e at� mesmo consultas.

Estes desafios de opera��es com big data est�o presentes em grandes sites como a Amazon, que gera um enorme volume de dados. A rede social Facebook lida com cerca de 40 bilh�es de fotos geradas por seus usu�rios. Atualmente, mais de 350 milh�es de usu�rios ativos acessam a rede social via dispositivos m�veis, e s�o realizados em m�dia 250 milh�es de uploads de fotos por dia. Em mar�o de 2008, a rede social Facebook coletava diariamente 200 GB de dados; atualmente, coleta 15 terabytes. Imagine apenas o simples fato de gerar um registro de log para cada uma destas opera��es, qual seria a quantidade de registros que atingir�amos no per�odo de 365 dias? O projeto Grande Colisor de H�drons (LHC � Large Hadron Collider), o maior acelerador de part�culas do mundo, mantido pela CERN, por exemplo, ir� produzir 15 petabytes de dados anualmente.

Outro exemplo de desafio com dados: o recurso de pesquisas Search Assist da Yahoo!, fornece sugest�es em tempo real conforme o usu�rio digita o que deseja pesquisar. Estas sugest�es s�o criadas analisando anos de registros de dados das pesquisas e termos utilizados. Para uma empresa do porte da Yahoo!, este registro de dados resulta em terabytes de arquivos de log em apenas um dia, e centenas de terabytes dentro do per�odo de um ano. Para a Yahoo!, antes de o Hadoop ser utilizado, criar a base de dados para o Search Assist levava 26 dias. Agora, com o Hadoop, leva 20 minutos.

� para lidar com essa constante e crescente necessidade de trabalhar com volumes intensivos de dados que surgiu a defini��o de big data.

Companhias das mais variadas ind�strias, por consequ�ncia da crescente capacidade de coletar e processar mais e mais informa��es, se encontram com problemas para lidar com big data, e anseiam por solu��es.

Na busca de oportunidades para prover solu��es para este mercado, o big data gera um impacto que faz com que grandes players da ind�stria, tais como Oracle, IBM, Microsoft e SAP, invistam cada vez mais, na ordem de bilh�es de d�lares, para se especializarem no gerenciamento e an�lise de dados nestas propor��es.

Esta tend�ncia traz benef�cios para v�rios campos e atividades que necessitam analisar informa��es de grandes volumes de dados, como: astronomia, biologia, pesquisas cient�ficas, pesquisas militares, meteorologia, imagens de sat�lite, redes sociais, pesquisa em internet, logs web, transa��es banc�rias, mercado financeiro, e-commerce, etc. Estar apto a processar analiticamente esse enorme conjunto de dados produzido pode gerar benef�cios valiosos para institui��es financeiras e n�o-financeiras.

Junto com este termo de categoriza��o (big data), v�m surgindo t�cnicas e ferramentas poderosas que se tornaram alternativas �teis para tratar esses volumes de dados. O que possibilita prover informa��es que antes n�o eram aproveitadas em vis�es anal�ticas, por serem t�o complicadas e custosas de serem obtidas. Vis�es que podem apresentar informa��es estrat�gicas, que s�o parte importante nas tomadas de decis�es. Dentro destes grandes volumes de dados podem estar escondidos padr�es de informa��es valiosos, antes inacess�veis devido ao grande esfor�o para extra�-los.

Hoje, com o custo mais baixo do hardware e processamento em arquitetura cloud dispon�vel no mercado, a op��o de an�lise de big data � acess�vel tamb�m para as m�dias e pequenas corpora��es. Para estabelecer um data warehouse, � necess�rio adquirir ferramentas com o pre�o de alguns milhares de d�lares, adquirir o servi�o para constru��o da solu��o por mais alguns milhares de d�lares, depois aguardar algumas dezenas de meses. E durante esses meses, esperar que o investimento (tempo e dinheiro) gasto se justifique, que promova vis�es que atender�o suas necessidades e lhe fornecer�o vantagens sobre os competidores. Por isso, empresas que precisavam processar grandes volumes de dados puderam assim realizar, com o advento de ecossistemas como Hadoop e HBase, solu��es para garimpar bilh�es de dados de forma mais �gil, e ainda com custo mais acess�vel. Obviamente, as solu��es corporativas de alto-custo de data warehouse n�o ir�o desaparecer, o que est� acontecendo � que, agora, um data warehouse pode n�o ser mais a �nica op��o.

Al�m disso, eles podem ser op��es complementares e n�o excludentes, pois dentro do ciclo de vida dos dados, as duas solu��es podem participar dividindo as responsabilidades. Mas ainda assim, h� uma intersec��o quanto ao armazenamento e an�lise, onde ambas as solu��es podem atuar. Podemos observar uma ilustra��o sobre isso na Figura 1.

Imagem 1

Figura 1. �reas de atua��o do Hadoop e do data warehouse dentro do ciclo de vida dos dados.

Lembrando que s�o cen�rios distintos armazenar big data e realizar alguma coisa com big data, como a execu��o de processamentos anal�ticos. Portanto, uma coisa � possuir big data, outra coisa � fazer algo �til com ele.

Na decis�o de transformar a sua grande massa de dados em informa��es �teis para os objetivos da institui��o, � executada uma abordagem que analisa a natureza dos dados e das plataformas de software dispon�veis para explor�-los. Nesta abordagem, o big data � comumente caracterizado sob tr�s diferentes aspectos: volume, velocidade e variedade. Provavelmente, na perspectiva do dono dos dados, ser� necess�rio lidar com cada um destes aspectos em um grau ou outro para orientar a solu��o a ser criada.

Volume

� sempre muito mais vantajoso poder processar o maior volume de dados poss�vel para a obten��o de respostas mais precisas. Por exemplo, se for vi�vel analisar a rela��o da influ�ncia de compra, entre pares de compradores de h�bitos diferentes, de um site e-commerce na ordem de trilh�es de registros, ser� muito mais eficiente do que analisar alguns milhares de registros. E para processar este grande volume de registros selecionados, possuir um bom modelo de an�lise das informa��es � uma parte importante, mas estar apto a processar um volume grande de dados trar� mais confian�a e precis�o ao resultado final da equa��o devido � maior abrang�ncia diante das informa��es armazenadas.

Quando lidamos com grandes volumes de dados, maiores do que os convencionais softwares e bancos de dados relacionais podem manusear, temos algumas op��es de ferramentas, como: data warehouse, arquiteturas MPP (Massively Parallel Processing), banco de dados como o Greenplum ou solu��es como o Apache Hadoop. Por�m, adotar solu��es de data warehouse envolve o tratamento de estruturas (schemas) pr�-definidas, enquanto que com o Apache Hadoop n�o temos que impor nenhuma condi��o na estrutura dos dados que ser�o processados.

Velocidade

Possuir uma informa��o precisa no momento errado n�o � uma grande vantagem, por�m possuir uma informa��o precisa no momento certo �, de fato, a vantagem que o dono dos dados procura. Por exemplo, n�o existe muita vantagem em possuir informa��es do h�bito de compra de casais com m�dia de idade de 30 anos durante o Natal, e que possuam filho com idade menor de 12 meses, somente na v�spera do evento. E h� casos, que para serem �teis, prover as informa��es em tempo real � uma grande vantagem, quando n�o uma necessidade.

Em busca desta vantagem, ou mesmo necessidade, companhias especializadas em opera��es financeiras anseiam por r�pida movimenta��o de informa��es para seu pr�prio benef�cio. Hoje em dia, o tr�fego de dados que flui entre clientes e servidores cresceu exponencialmente, pois estamos munidos de dispositivos que permitem acesso mais conveniente e constante a redes, como tablets e smartphones. Al�m disso, informa��es como geolocaliza��o e imagens s�o tamb�m providas pelos usu�rios. Aqueles que possuem a capacidade de utilizar rapidamente essa grande quantidade de informa��es, podem, por exemplo, recomendar produtos e servi�os que tenham alguma rela��o com o contexto do usu�rio no momento de uma pesquisa em um site na internet, e assim ganhar em competitividade.

A import�ncia da velocidade est� no grau de rapidez em que fluxo de informa��es � realizado: desde a entrada dos dados, at� o ponto onde estes se tornam �teis e s�o utilizados na tomada de decis�es.

Um comercial de uma grande empresa de tecnologia diz: �voc� n�o atravessaria a rua se tudo que voc� tivesse fosse um snapshot do tr�fego de 5 segundos atr�s, atravessaria?�. Neste contexto, n�o haveria tempo para esperar relat�rios serem gerados ou mesmo jobs do Hadoop se completarem. Para casos como este � que a ind�stria est� estabelecendo t�cnicas como ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO

Desbloqueie toda a DevMedia

+2000 artigos e v�deos
+40 trilhas sobre Front-end, Back-end, IA e muito mais
+5000 exerc�cios pr�ticos
Mentorias ao vivo individuais

at� 50% OFF

A partir de

R$ 79,90 /m�s

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Por Ualter Em 2012

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Dennys Peixoto

Por�m, adotar solu��es de data warehouse envolve o tratamento de estruturas (schemas) pr�-definidas, enquanto que com o Apache Hadoop n�o temos que impor nenhuma condi��o na estrutura dos dados que ser�o processados.

quando diz condi��o, � referente a tanto faz banco relacional ou n�o relacional?

há +1 ano

Marcio Souza

Oi Dennys.

Pelo que entendi na leitura do artigo sim, vai ser necess�rio criar condi��es tanto no modelo relacional quanto no n�o relacional. Porque? Porque o Data warehouse precisa que se indique quais dados ser�o filtrados e esse filtro s�o as condi��es. Ou seja, voc� vai escolher dentro da sua base de dados quais deles ser�o transferidos para o data warehouse. E se voc� tem um NoSQL ou um Relacional, em ambos ter� que dizer quais dados s�o importantes e devem ser levados para o DW.

Sobre Data Warehouse temos este artigo - https://www.devmedia.com.br/data-warehouse/12609 - talvez possa tirar suas duvidas de forma mais concreta.

Vou sugerir tamb�m um link da Oracle sobre o tema:

Data Warehouse definido - https://www.oracle.com/br/database/what-is-a-data-warehouse/

há +1 ano

Big Data na plataforma Java

Neste artigo apresentaremos uma vis�o conceitual sobre o que � big data, onde se originou, seus motivadores e principais usu�rios. Demonstraremos tamb�m modelos de programa��o como o MapReduce, assim como ferramentas Java para lidar com big data.

Desbloqueie toda a DevMedia

Confira outros conte�dos: