Big Data Tutorial: Como trabalhar com Big Data na prática

Por que eu devo ler este artigo:Com a populariza��o das m�dias sociais e desenvolvimento das tecnologias, o n�mero de dados gerados est� sendo muito alto e a grande maioria desses s�o dados semiestruturados ou n�o estruturados. Diante disso vem se falando muito em Big Data.

Seu conceito pode ser definido como ferramentas e pr�ticas que gerenciam e analisam grandes volumes de dados de diferentes fontes, em velocidade consider�vel, buscando agregar as organiza��es, valor de neg�cios e maior confiabilidade em rela��o �s decis�es a serem tomadas. Este artigo visa esclarecer a concep��o e conceito de Big Data, sua utiliza��o nas organiza��es, apresentar as tecnologias envolvidas, para que desta maneira as empresas possam utilizar desses recursos, contando com os benef�cios de que disp�e para um maior gerenciamento e apoio na tomada de decis�es.

Com a populariza��o da internet e o surgimento de m�dias sociais, o n�mero de dados digitais gerados aumentou de forma significativa. Esses dados podem ser classificados em estruturados e n�o estruturados, com base no seu gerenciamento e armazenamento.

Os dados estruturados s�o organizados em linhas e colunas, geralmente s�o encontrados em banco de dados relacionais, s�o eficientes quanto � recupera��o e processamento. J� os dados n�o estruturados referem-se a dados que n�o podem ser organizados em linhas e colunas, como v�deos, coment�rios em redes sociais e e-mails, entre outros. Geralmente s�o dados de dif�cil acesso e recupera��o e muitas vezes n�o disp�em de componentes necess�rios para identifica��o de tipo de processamento e interpreta��o, tornando o seu uso um desafio principalmente em aplicativos empresariais.

Grande parte dos dados digitais gerados atualmente, principalmente atrav�s de m�dias sociais, os quais v�m despertando o interesse das organiza��es para serem usados como estrat�gias de neg�cio, s�o do tipo n�o estruturados. Esse tipo de dados requer dispositivos de armazenamento e processamento que suportem seu formato e garantam melhor efici�ncia em suas an�lises. Diante desta necessidade crescente de armazenar, manipular e analisar de forma r�pida e inteligente, grandes volumes de dados n�o estruturados foi criado o conceito de Big Data.

Saiba mais: Big Data com Java

Na d�cada de 1940 j� se falava em "explos�o de dados" e "grandes volumes de dados", por�m, foi na d�cada de 1990 que na divulga��o de um artigo, a IEEE mencionou o termo �Big Data" pela primeira vez. Em 2001, o termo passou a ser definido pelos 3Vs, de: Volume, Velocidade e variedade. O conceito de Big Data pode ser definido como ferramentas e pr�ticas que gerenciam e analisam grandes volumes de dados, de diferentes fontes, em velocidade consider�vel, buscando agregar �s organiza��es valor de neg�cios e maior confiabilidade em rela��o �s decis�es a serem tomadas.

Para as organiza��es aderirem com sucesso a esse novo conceito de an�lise e gerenciamento de grandes volumes de dados, � recomendado o cumprimento de algumas fases, s�o elas: 1) aquisi��o e grava��o; 2) limpeza, formata��o e valida��o; 3) integra��o, agrega��o e representa��o; 4) an�lise e modelagem; e 5) interpreta��o dos dados. O cumprimento das fases acima garante maior confiabilidade quanto � utiliza��o do conceito Big Data.

O conceito de Big Data disp�e de in�meras vantagens para as organiza��es, mas a principal vantagem � a identifica��o das necessidades dos clientes, sendo poss�vel desenvolver estrat�gias de mercado e apoio a tomada de decis�es mais precisas. Contudo, surgem tamb�m alguns desafios, como trabalhar com a seguran�a e confiabilidade dos dados.

Para auxiliar as organiza��es nos processos relacionados ao Big Data existem ferramentas anal�ticas como o Hadoop e MapReduce, tamb�m banco de dados NoSQL, que est�o preparados para armazenar, gerenciar e analisar grandes volumes de dados de diferentes formatos.

O objetivo deste artigo � apresentar o conceito de Big Data de forma a facilitar o seu entendimento e utiliza��o nas organiza��es, bem como: a) descrever as vantagens e desafio sem sua utiliza��o, b) identificar a aplica��o em ambientes corporativos; e c) enumerar as principais tecnologias que o sustentam.

Big Data

O n�mero de dados gerados por meios eletr�nicos tem aumentado significativamente com o desenvolvimento da tecnologia. Atualmente s�o gerados mais dados do que a civiliza��o gerou desde o seu in�cio at� o ano de 2003. Com todo este volume de dados surgem possibilidades de an�lise e gerenciamento, de maneira a gerar informa��es �teis na tomada de decis�o das empresas. Esta nova maneira de armazenar, gerenciar e analisar grandes volumes de dados de diversas fontes, a uma velocidade consider�vel denomina-se Big Data.

Contudo, a maioria das empresas ainda n�o tem uma vis�o clara do conceito Big Data, do seu potencial e de como alavancar esta potencialidade. Bem como, de que a ideia de que Big Data s� faz sentido se o valor da an�lise dos dados compensar o custo de sua coleta, armazenamento e processamento e as quest�es legais envolvidas.

Dados podem ser caracterizados como uma descri��o prim�ria de objetos, eventos, atividades e transa��es que s�o gravados, classificados e armazenados, mas n�o chegam a ser organizados de forma a transmitir algum significado espec�fico. Quando esse conjunto de registros sobre um determinado evento, fato, n�mero, texto ou qualquer m�dia que possa ser processada pelo computador, � agrupada, caracterizado e padronizado, transforma-se em informa��o.

Antes de serem transformados em informa��o, os dados podem ser divididos em dois grupos, segundo o armazenamento e gerenciamento. No primeiro grupo encontram-se os dados estruturados e no segundo os dados n�o estruturados. Os dados estruturados s�o organizados em linhas e colunas em um formato definido de forma r�gida, de modo que os aplicativos possam recuper�-los e process�-los com efici�ncia. J� os dados n�o estruturados s�o os que n�o podem, ou s�o dif�ceis de serem armazenados em linhas e colunas. Geralmente s�o de dif�cil acesso e recupera��o e requerem maior espa�o e velocidade para armazenamento e gerenciamento. S�o muitas vezes dados que n�o disp�em de componentes necess�rios para identifica��o de tipo de processamento e interpreta��o, tornando o seu uso um desafio, principalmente em aplicativos empresariais.

O formato de dados n�o estruturados corresponde a 80% dos dados corporativos, podendo ser encontrados na forma de e-mails, coment�rios em redes sociais, v�deos, entre outros.

Conceitos de Big Data

Em meio � inova��o tecnol�gica, as organiza��es encontram-se diante de uma possibilidade de analisar um volume muito grande de dados, que cresce de forma significativa. Estes dados v�m de v�rias fontes como, por exemplo, e-mails, v�deos, web sites, tu�tes, coment�rios em Facebook, sensores, c�meras e smartphones, entre outros.

O Facebook divulgou ao blog TechCrunchque em 2012, que processa 2,5 bilh�es de conte�do e mais de quinhentos terabytes de dados por dia. S�o muitos dados se comparados h� alguns anos. Em 2000 25% dos dados estavam em formato digital e em 2007 j� eram 94%, ou seja, um crescimento de 69% em sete anos.

Apesar do crescimento de dados digitais ter aumentado significativamente, a maioria ainda n�o � tratada e analisada de forma a influenciar na tomada de decis�es das empresas. Diante disso, tem-se ouvido falar muito a respeito de Big Data, que por sua vez tem chamado aten��o, pois se trata de um conceito n�o com apenas uma defini��o exata, mas com v�rias defini��es se analisado sobre diversas �ticas, como por exemplo, neg�cios e tecnologia.

Big Data s�o tecnologias e pr�ticas emergentes que possibilitam a sele��o, processamento, armazenamento e gera��o de insights de grandes volumes de dados estruturados e n�o estruturados de maneira r�pida, efetiva e a um custo acess�vel. Big Data pode ser considerado como um conjunto de dados que cresce exponencialmente e necessita de habilidades al�m das quais as ferramentas t�picas de gerenciamento e processamento de informa��es disp�em.

Taurion descreve ainda que se trata de "Um conjunto de tecnologias, processos e pr�ticas que permitem �s empresas analisarem dados a que antes n�o tinham acesso e tomar decis�es ou mesmo gerenciar atividades de forma muito mais eficiente�. Segundo o autor citado acima "n�o � teoria ou futurologia, � algo que se encontra agora�.

Big Data pode ser definido tamb�m, como um grande data warehouse ou um BI em cima de um data set de terabytes de dados ou tamb�m como um volume de dados muito significativo, por�m n�o se trata apenas de volume, mas tamb�m de uma variedade imensa de dados n�o estruturados que precisam ser avaliados e tratados em velocidade adequada para terem valor ao neg�cio.

De maneira mais simples, resume-se em "Big Data = volume + variedade + velocidade + veracidade, gerando valor". Volume refere-se � quantidade de dados gerados a cada segundo, variedade, porque os dados v�m de diversas fontes (estruturados e n�o estruturados), velocidade, pois se trata muitas vezes de informa��es em tempo real, veracidade, porque � necess�rio que os dados sejam aut�nticos e fa�am sentido e, por fim, valor, pois � o que as organiza��es buscam, ou seja, o retorno dos investimentos.

Com a expans�o dos conceitos de Big Data, diversas empresas j� est�o tomando iniciativas para aderir ao mesmo, por�m, sem uma estrat�gia bem definida, afinal, "Big Data n�o � apenas comprar pacotes de tecnologia, mas uma nova maneira de explorar esse imenso volume de dados que circula dentro e fora das empresas". Para aderir ao Big Data , as empresas devem estar cientes de que ser�o embutidas transforma��es em processos de neg�cio, fonte de dados, infraestrutura de tecnologia, capacita��o e mudan�as organizacionais na empresa e em TI.

Fases do processo de an�lise sugerido pelo Big Data

Para que ocorra sucesso com o uso desse novo conceito, � necess�rio que as organiza��es sigam algumas fases do processo de Big Data.

A coleta de dados ou aquisi��o e agrava��o � a primeira fase do processo de Big Data. Nesse momento devem ser analisados o volume e a variedade dos dados que ser�o coletados. � necess�rio que se fa�a uma limpeza, formata��o e valida��o dos dados coletados, para que sejam eliminados erros, dados incompletos e incoerentes, evitando assim contaminar an�lises futuras.

Depois disso vem a fase de integra��o, agrega��o e representa��o dos dados obtidos, pois diferentes tipos e formatos de dados devem receber tratamentos espec�ficos. Nesta fase � importante definir categorias de dados e crit�rios de valida��o e aceita��o, tamb�m crit�rios de seguran�a variam de acordo com as fontes de dados.

Em seguida encontra-se a fase de an�lise e modelagem dos dados. Como se trata de dados de diversas fontes para serem analisados, requer conhecimento elevado por parte dos usu�rios. Aqui entra o "datascientist", um profissional com habilidades em ci�ncia da computa��o, matem�tica, estat�stica e conhecimento de neg�cio. Esta fase tamb�m requer investimentos em pesquisas de novas formas de visualiza��o, que ajudam na melhor interpreta��o dos dados, que se trata da �ltima fase do pipeline. A Figura 1 representa as fases do processo de Big Data.

O pipeline de an�lise de big data — **Figura 1.** The Big Data Analysis Pipeline

Vantagens

Algumas das poss�veis vantagens de seu uso s�o:

Saber exatamente o que os clientes querem, estudando seus h�bitos de consumo. O conhecimento das necessidades do cliente faz com que possa ser oferecido ao mesmo exatamente o que deseja, ganhando assim a confian�a;
Encontrar potenciais compradores a partir da mensura��o em tempo real das redes sociais. O desenvolvimento da tecnologia permite que pessoas de diversas localidades geogr�ficas conhe�am o produto e ofertas em tempo real, com isso pode ocorrer expans�o nas vendas;
Prevenir poss�veis riscos para o neg�cio gra�as a an�lises em tempo real de distintas vari�veis do mercado. Pode ser analisado em tempo real tudo o que est� ocorrendo no mercado, sendo assim, existe possibilidade de tomar medidas preventivas e antecipat�rias em rela��o a dificuldades e oportunidades;
Observar o que a concorr�ncia est� fazendo para desenhar ofertas especiais. Conhecer o concorrente e pensar alternativas para aumentar lucros.

Todas as observa��es citadas pela SAP disp�em �s organiza��es um diferencial de mercado e vantagem competitiva em rela��o a seus concorrentes.

As vantagens do Big Data est�o relacionadas a dois fatores:

O efeito dos grandes n�meros, que garante a validade das an�lises;
A capacidade de adicionar uma multiplicidade de novos vetores de prefer�ncia, complementando e enriquecendo a qualidade das an�lises devido � observa��o de comportamentos espec�ficos em indiv�duos com caracter�sticas similares.

Estes fatores podem ser melhor explicados nos seguintes itens:

Transforma��o de dados n�o estruturados em informa��o �til para an�lise sistem�tica, atrav�s de t�cnicas de Big Data que possibilitam a atribui��o de indicadores de �sentimento�. Neste sentido, existem j� diversos softwares que classificam os coment�rios produzidos nas redes sociais de acordo com o teor das mensagens e a sua intensidade;
Utiliza��o dos dados de forma experimental, correlacionando grandes volumes de dados quantitativos hist�ricos com informa��o recente, depois de passar pelo processo de estrutura��o (por exemplo, coment�rios realizados em blus�es) e antecipando assim as expectativas do mercado;
Segmenta��o exaustiva dos diversos perfis de consumo, permitindo identificar clusters de clientes e adaptar as abordagens de forma micro segmentadas, sempre que poss�vel em real time (por exemplo, utiliza��o de promo��es por georreferencia);
Acelera��o do processo de inova��o das empresas, com reflexo na rapidez do desenvolvimento de ideias para novos produtos e servi�os e na sua performance esperada, permitindo endere�ar n�o s� o desafio de criar ofertas inovadoras como tamb�m de gerir de forma proativa todo o customer life cycle � desde a capta��o � reten��o, incluindo mecanismos de aumento de valor e da satisfa��o dos clientes nas intera��es realizadas ao longo dos diversos pontos de contato.

O Big Data traz �s empresas a grande oportunidade de obten��o da excel�ncia no conhecimento mais adequado e imediato do cliente e do mercado. Essa efici�ncia est� ligada a qualidade das informa��es integrada aos diversos sistemas corporativos e que os ganhos ser�o obtidos por aqueles que perceberem o sentido de ampliar a gama das fontes de dados e garantir veracidade e velocidade, bem como a proximidade no relacionamento com seus clientes.

O caminho da obten��o de vantagens competitivas trazidas pelo Big Data � o conhecimento profundo do neg�cio para perceber e chegar � combina��o ideal de dados e informa��es sobre o cliente e o mercado, que possam favorecer a estrat�gia, efic�cia, aceita��o da proposta de valor, prever tend�ncias de consumo e, por fim, alcan�ar avan�os na realiza��o dos objetivos estrat�gicos da empresa.

Desafios

Para alcan�ar a efetividade do Big Data � necess�rio que os benef�cios estejam claros e os incentivos alinhados, criando condi��es de aprofundar t�cnicas e utiliz�-las nas organiza��es. Alguns dos principais desafios do Big Data s�o:

Pol�ticas de privacidade, acesso, tratamento e utiliza��o da informa��o: se por um lado � imprescind�vel garantir a prote��o da privacidade dos clientes, por outro lado s� ser� poss�vel melhorar a qualidade dos dados analisados se estiver garantida o recolhimento sistem�tico de informa��o. Mas como garantir que os clientes disponibilizem, por exemplo, informa��o da sua localiza��o atual? Como conseguir relacionar um determinado cliente com o seu perfil nas redes sociais? O envolvimento dos clientes � cr�tico porque s� dessa forma o ciclo de Big Data ficar� completo;
Avan�o tecnol�gico e multidisciplinaridade: � medida que o volume de dados aumenta, maiores s�o os desafios que se colocam � capacidade de armazenamento e an�lise. Os principais provedores de tecnologia t�m apostado fortemente em novas t�cnicas de storage, data mining e business intelligence. No entanto, uma maior colabora��o com as �reas de neg�cio e os principais influenciadores em cada ind�stria ser� cr�tica para conseguir adaptar a tecnologia �s necessidades imediatas das empresas, sem ter de passar por processos morosos e custosos de implementa��o;
Orienta��o para o cliente: apenas percebendo o fim para o qual se destinam os dados � �til aprofundar as metodologias de Big Data. Exceder as expectativas do cliente dever� ser a principal finalidade. Para isso, a organiza��o dever� desenvolver estrat�gias globais que permitam integrar os modelos de dados com os modelos de rela��o nos diversos pontos de contato de forma hol�stica e din�mica, adaptando-se � expectativa de cada cliente a cada momento.

Outro desafio vis�vel em rela��o ao Big Data � a falta de profissionais qualificados. A EMC Brasil realizou uma pesquisa onde 73% das empresas entrevistadas apontaram a cultura como sendo a maior barreira de lidar com o Big Data. O levantamento destaca que 88% das companhias acreditam que ser� um desafio capacitar seus trabalhadores para a nova TI.

De acordo com Carlos Cunha, diretor geral da EMC Brasil "N�o est� f�cil encontrar profissionais de TI. E a dificuldade para Big Data � tamanha porque o conceito vai al�m dos dados armazenados na TI tradicional�.

Utiliza��o nas organiza��es

A utiliza��o do Big Data pelas organiza��es ainda � um desafio na realidade atual. A SAS e Source Media realizaram uma pesquisa a qual apontou que a maioria das organiza��es ainda n�o se preparou para implementar estrat�gias. A necessidade de informa��es espec�ficas e clareza dos benef�cios, assim como o pouco apoio da lideran�a s�o as barreiras mais comuns para a falta de uso da tecnologia, destacou a pesquisa.

Uma pesquisa realizada pela IBM em parceria com Said Business Schoolatthe OxfordUniversity, feita com 1.144 profissionais de neg�cios e de TI, em 95 pa�ses apontou 2/3 das empresas sentem que Big Data oferece um potencial muito grande para a cria��o de vantagens competitivas. 28% das empresas est�o desenvolvendo projetos piloto ou tem algum projeto j� em andamento, 47% ainda est�o estudando o assunto e 24% nem come�aram.

No Brasil, segundo a IBM, 25% das empresas ainda n�o deram in�cio a nenhuma atividade relacionada � Big Data e 24% afirmam estar em processo de implanta��o de seu primeiro projeto de an�lise de dados.

Existe hoje certa inseguran�a entre as organiza��es em rela��o ao Big Data, devido a que muitas associam essa inova��o com projetos realizados pela Google e Facebook, por exemplo, os quais envolvem investimentos considerados altos e uma quantidade consider�vel de profissionais qualificados, a qual foge da sua realidade.

Contudo, essa vis�o est� ficando de lado com o amadurecimento das solu��es de Big Data que est�o sendo preparadas para suportar or�amentos mais modestos.

Diversas organiza��es buscam o Big Data devido a fatores como, maior velocidade a baixo custo, que se d� unindo computa��o e armazenamento em um hardware acess�vel. Economia com aprimoramentos de desempenho que pode ser conseguida com a tecnologia Hadoop, por exemplo.

Para Cynthia Bianco, existe uma grande procura por solu��es Big Data no Brasil, por�m ainda s�o poucas as empresas que realmente aplicam a solu��o, devido � dificuldade na implementa��o, por se tratar de v�rios processos que envolvem coleta de dados e cria��o de l�gica.

Mas este cen�rio tende a mudar, um estudo da ABI Research afirma que as organiza��es v�o investir 31 bilh�es de d�lares neste ano de 2013, com um crescimento de 30%, chegando a 114 bilh�es de d�lares em 2018. O estudo destaca ainda que os maiores investimentos em Big Data ser�o feitos por empresas de tecnologia da informa��o, seguidas das �reas de transportes, servi�os financeiros, com�rcio, servi�os p�blicos, manufatura e minera��o, petr�leo e g�s.

Mcafeee conduziu estudos que levaram � conclus�o de que as empresas que efetivamente utilizam Big Data s�o 5% mais produtivas e 6% mais lucrativas que seus competidores, empresas centen�rias j� est�o adotando-o como forma de promover competitividade no mercado.

A empresa alem� Bosch que atua no mercado h� 127 anos lan�ou iniciativas em diversas �reas da companhia. De acordo com Olhar Digital, a ideia da empresa � usar a an�lise de dados para oferecer servi�os mais inteligentes aos clientes. Eles inclu�ram a intelig�ncia na frota de ve�culos de carga, na gest�o de energia e na seguran�a. Para desenvolver a tend�ncia dentro da empresa, a Bosch ainda criou um grupo de inova��o de software focado em an�lises de grandes volumes de dados e 'internet das coisas'.

A empresa GE destacou-se tamb�m pela iniciativa tomada, onde instalou sensores de fluxo de dados em turbinas, locomotivas e motores para determinar de forma mais eficaz e eficiente os intervalos de manuten��o das m�quinas. Tudo isso usando a an�lise dos dados coletados. A organiza��o investiu mais de US$ 2 bilh�es em novos softwares de an�lises, al�m de vender tecnologias para empresas industriais que querem usar Big Data.

Na �rea de tecnologia da informa��o empresas como a IBM e SAS t�m se destacado quanto � cria��o de ferramentas Big Data.

Tecnologias que sustentam Big Data

Para tratar dados na escala de volume, variedade e velocidade do Big Data se fez necess�ria a cria��o de novos modelos para avaliar e armazenar dados. Neste contexto surgiram as tecnologias de infraestrutura, que armazenam e processam os petabytes de dados e tecnologias analytics. Para trabalhar processamento de muitos dados em tempo real, tem se usado bancos NoSQL, que permitem alto desempenho e recupera��o baseada em �ndice. J� para processamento em lote, tem sido usada a t�cnica MapReduce, que se trata de um modelo computacional distribu�do.

NoSQL

A ascens�o do Big Data trouxe novos desafios na forma de manipula��o, armazenamento e processamento de consultas, em especial na �rea de bases de dados, minera��o e recupera��o de informa��es. Nesse aspecto, identificou-se que os bancos de dados relacionais n�o seriam mais adequados como, por exemplo, na execu��o de consultas com baixa lat�ncia, tratamento de grandes volumes de dados, escalabilidade el�stica horizontal, suporte a modelos flex�veis de armazenamento de dados, e suporte simples a replica��o e distribui��o dos dados.

Diante disso surge uma tend�ncia para solucionar os diversos problemas e desafios gerados pelo contexto Big Data � o movimento denominado NoSQL (Not Only SQL).

A cria��o do conceito NoSQL teve como base fatores como alta taxa de gera��o de dados, suporte a tipos de dados complexos, semiestruturados e n�o estruturados e a dificuldade de modelagem de tais tipos de dados.

Trata-se de diferentes sistemas de armazenamento que vieram para suprir necessidades em demandas onde os bancos de dados tradicionais s�o ineficazes. Muitas dessas bases apresentam caracter�sticas muito interessantes, como alta performance, escalabilidade, replica��o, suporte a dados estruturados e subcolunas. Os bancos NoSQL est�o subdivididos pelo seu n�cleo:

Key/Value Store � banco de dados simples que aguenta a maior carga de dados. O seu conceito � uma chave e um valor para esta chave. Possui maior escalabilidade. Exemplos: Berkeley DB, TokyoCabinet, Project Voldermort, MemcacheDB, SimpleBD.
Wide Columns Store - suportam v�rias linhas e colunas e tamb�m subcolunas. Exemplos: BigTable, HBase (Apache), HiperTable, Cassandra (Apache).
Document Store - Baseado em documentos XML ou JSON, podem ser localizados pelo seu id �nico ou por qualquer registro que tenha no documento. Exemplos: CouchDB (Apache), MongoDB, Riak, RavenDB.
GraphStore - guardam objetos, e n�o registros como os outros tipos de NoSQL. A busca desses itens � feita pela navega��o desses objetos. Exemplos: Neo4J, InfoGrid, HyperGraphDB, BigData.
Column Oriented Store - Esses s�o bancos de dados relacionais, por�m apresentam caracter�sticas do NoSQL. A principal diferen�a deles � que os dados s�o armazenados em colunas, ajudando na escalabilidade. Exemplos: Vertica, MonetDB, LucidDB, Infobright, Ingres/Vectorwise.

Os bancos NoSQL s�o indicados para grandes cargas de dados, exig�ncia de velocidade na consulta e escrita em grandes volumes de dados. Devido a esses fatores se tornam uma boa escolha na utiliza��o de Big Data.

Diferen�a entre bancos de dados relacionais e NoSQL

Bancos de dados NoSQL s�o uma solu��o alternativa para os bancos de dados relacionais, possuem uma alta escalabilidade e desempenho. Bancos de dados relacionais baseiam-se no fato de que todos os dados est�o guardados em tabelas, pelo conceito de entidade e relacionamento. Os dados s�o separados de forma �nica, tentando diminuir ao m�ximo a redund�ncia, pois a informa��o � criada pelo conjunto dos dados, onde s�o as rela��es entre as tabelas que fazem esse servi�o.

As caracter�sticas do NoSQL s�o registros, schema-free, toler�ncia � falha, escalabilidade, clusteriza��o, mapreduce, sharding. Enquanto isso, as principais caracter�sticas dos bancos relacionais s�o tabelas, schema definido, hierarquia, redund�ncia m�nima, entidade e relacionamento, formas normais, transa��es ACID (Atomicidade, Consist�ncia, Isolamento, Durabilidade).

Em rela��o �s necessidades o NoSQL: sistemas em nuvem, an�lises sociais, alta escalabilidade, performance na consulta/escrita, replica��o. J� os relacionais: sistemas locais, financeiros, corporativos; seguran�a da informa��o; consist�ncia dos dados.

Como casos de sucesso do NoSQL podem ser citados Twitter, Facebook, Digg, Amazon, LinkedIN, Google, Yahoo, The New York Times, Bit. ly. No modelo relacional SAP, OpenERP, Previd�ncia, Social, Caixa, Ita�, Salesforce, Vale.

A Tabela 1 apresenta uma an�lise comparativa do modelo de dados relacional e o modelo NoSQL.

	Relacional	NoSQL
Escalonamento	Poss�vel, mas complexo. Devido � natureza estruturada do modelo, a adi��o de forma din�mica e transparente de novos n�s no grid n�o � realizada de modo natural.	Uma das principais vantagens desse modelo. Por n�o possuir nenhum tipo de esquema pr�-definido, o modelo possui maior flexibilidade o que favorece a inclus�o transparente de outros elementos.
Consist�ncia	Ponto mais forte do modelo relacional. As regras de consist�ncia presentes propiciam um maior grau de rigor quanto � consist�ncia das informa��es.	Realizada de modo eventual no modelo: s� garante que, se nenhuma atualiza��o for realizada sobre o item de dados, todos os acessos a esse item devolver�o o �ltimo valor atualizado.
Disponibilidade	Dada a dificuldade de se conseguir trabalhar de forma eficiente com a distribui��o dos dados, esse modelo pode n�o suportar a demanda muito grande de informa��es do banco.	Outro fator fundamental do sucesso desse modelo. O alto grau de distribui��o dos dados propicia que um maior n�mero de solicita��es aos dados seja atendida por parte do sistema e que o sistema fique menos tempo n�o dispon�vel.

Tabela 1. An�lise Comparativa Modelo Relacional x NoSQL

Com a necessidade de uso do NoSQL, empresas come�aram a investir em desenvolvimento de seus pr�prios SGBDs:

Apache Cassandra: Desenvolvido inicialmente pelo Facebook, � um projeto de sistema de banco de dados distribu�do, altamente escal�vel, que foi desenvolvido na plataforma Java. Re�ne a arquitetura do Dynamo da Amazon e o modelo de dados do BigTable da Google. Exerce com excel�ncia a fun��o de reposit�rio de dados. Teve seu c�digo-fonte aberto � comunidade em 2008. Atualmente � mantido por desenvolvedores da funda��o Apache e colaboradores de outras empresas;
Apache CouchDB: � um banco de dados orientado a documentos de c�digo fonte aberto escrito em linguagem Erlang. Foi desenvolvido e mantido pela funda��o Apache e busca replica��o e escalabilidade horizontal;
BigTable: Foi desenvolvido pela Google para distribuir dados por centenas de servidores e escalar por conjuntos de dados de at� 1 petabyte. Uma grande variedade de aplicativos da empresa usa o BigTable, entre eles �ndices da web, Google Earth, Maps, YouTube entre outros. � propriet�rio, por�m o modelo de dados existe em implementa��es de c�digo aberto. Pode ser usado como input ou output para o Mapreduce, que ativa o processo de distribui��o de arquivos ou banco de dados usando fun��es de mapeamento e redu��o;
Dynamo: Desenvolvido pela Amazon em 2007, foi criado para oferecer armazenamento de valores-chaves de dados de alta disponibilidade, permitindo atualiza��es para sobreviver a falhar de servidor e rede;
MongoDB: Combina as melhores funcionalidades de orienta��o a documentos, Assis e RDBMSs. � um banco de dados orientado a documentos, escal�vel, livre de esquema, de alto desempenho e c�digo aberto escrito em C++.

MapReduce

O modelo de programa��o MapReduce � projetado para computar grandes volumes de dados de um modo paralelo e serve para dividir a carga de trabalho entre diversos n�s do cluster. Suas etapas transformam listas de elementos de entrada em listas de elementos de sa�da e foram inspiradas nas linguagens funcionais. Esse modelo segue a arquitetura de comunica��o mestre-escravo, em que um n�, chamado de mestre, controla v�rios outros n�s, chamados de escravos. O processamento do MapReduce � dividido em tr�s partes:

Na fase map, o n� mestre tem a fun��o de quebrar os dados de entrada em peda�os menores e distribu�-los entre os n�s escravos do cluster, a partir da� o processamento � feito paralelamente. Quando todos os n�s escravos terminam a fun��o map, as respostas s�o estruturas de dados de chave-valor e s�o enviadas como entrada para a pr�xima fase;
Na fase shuffle e sort, a lista de entrada de todos os n�s � agregada e ordenada com coordena��o do n� mestre, criando uma nova lista com elementos do tipo chave-valor. Seu resultado � enviado para a entrada da fase de reduce;
Na fase do reduce, o n� mestre novamente divide a lista de entrada entre todos os n�s escravos. Ela � iterada e a fun��o reduce realiza algum processamento sobre os valores de cada chave.

Na Figura 2 pode ser observada a entrada de dados (input data), em seguida o MapReduce se encarrega de dividir os dados de entrada em peda�os de mais ou menos igual tamanho (input data part 1, input data part N), gerando um n�mero de inst�ncias de processamento para a fase de mapa repartir os dados para cada um dos cart�grafos (map instance #1, map instance #N), que acompanha o status de cada mapeador. Em seguida, � feito o encaminhamento dos resultados no mapa para a fase de reduzir (reduce instance) e, finalmente, fecha-se os cart�grafos e os redutores (output data).

O modelo de programa��o MapReduce tem algumas implementa��es, por�m, a mais utilizada � a do Hadoop.

Hadoop

O Hadoop foi a primeira implementa��o gratuita para o MapReduce, em um projeto criado pela Funda��o Apache. O Hadoop foi criado pelo Yahoo em 2005 e pode ser considerado um dos maiores inventos de data management desde o modelo relacional. Hoje o mesmo � um dos projetos da comunidade Apache e vem sendo adotado por empresas que precisam tratar volumes massivos de dados n�o estruturados.

Na pr�tica Hadoop s�o uma combina��o de dois projetos separados, que s�o o Hadoop MapReduce (HMR) e o Hadoop Distributed File System (HDFS). O HMR � um framework para processamento paralelo e um spinoff do MapReduce, software que o Google usa para acelerar as pesquisas endere�adas ao seu buscador. O HDFS � um sistema de arquivos distribu�dos, otimizado para atuar em dados n�o estruturados, e � tamb�m baseado na tecnologia do Google, neste caso o Google File System. Existe tamb�m o Hadoop Common, conjunto de bibliotecas e utilit�rios que suportam os projetos Hadoop. Na pr�tica, para que o HMR processe os dados, eles devem estar armazenados no HDFS.

A IBM usa intensamente o Hadoop em diversos projetos. A empresa integra-o a outros de seus softwares como o Cognos, criando solu��es para tratamento anal�tico de dados massivos e n�o estruturados, como o Info Sphere Big Insights, que agrega um conjunto de tecnologias open source como o pr�prio Hadoop, Nutch e Pig, com as tecnologias pr�prias da IBM, como InfoSphere e ManyEyes.

Haddop � um projeto de software de c�digo aberto que permite o processamento distribu�do de grandes conjuntos de dados em clusters de servidores de commodities. O mesmo foi concebido para escalar a partir de um �nico servidor de milhares de m�quinas, com um elevado grau de toler�ncia a falhas. Possui capacidade para detectar e lidar com falhas na camada de aplica��o.

Existem v�rias defini��es de Hadoop, cada uma visando um p�blico diferente dentro da empresa:

Para os executivos: Hadoop � um projeto de software livre da Apache que tem como objetivo obter valor do volume/velocidade/variedade incr�vel de dados sobre sua organiza��o. Use os dados em vez de jogar a maioria fora;
Para os gerentes t�cnicos: um conjunto de softwares livres que mina o BigData estruturado e n�o estruturado de sua empresa. Ele integra com seu ecossistema existente de Business Intelligence;
Jur�dico: um conjunto de software livre empacotado e suportado por diversos fornecedores;
Engenharia: um ambiente de execu��o Mapear/Reduzir massivamente paralelo, sem compartilhamento e baseado em Java. Imagine de centenas a milhares de computadores trabalhando no mesmo problema, com resili�ncia integrada contra falhas. Projetos no ecossistema Hadoop fornecem carregamento de dados, linguagens de n�vel superior, implementa��o automatizada na nuvem e outros recursos.
Seguran�a: um su�te de software protegido por Kerberos.

O Hadoop muda a economia e a din�mica da computa��o em larga escala. Seu impacto pode ser resumido a quatro caracter�sticas marcantes:

Scalable- Novos n�s podem ser adicionados sem necessidade de alterar os formatos de dados, como os dados s�o carregados, como os trabalhos s�o escritos, ou as aplica��es que acessam os dados;
Custo-benef�cio- Hadoop traz computa��o massivamente paralela aos servidores das commodities. O resultado � uma diminui��o consider�vel no custo por terabyte de armazenamento, o que o torna acess�vel para modelar todos os seus dados.
Flex�vel- Hadoop � schema-less, e pode absorver qualquer tipo de dados, estruturados ou n�o, de qualquer n�mero de fontes. Dados de v�rias fontes podem ser unidos e agregados de forma arbitr�ria, permitindo an�lises mais profundas do que qualquer sistema pode proporcionar;
Tolerante a falhas- Quando voc� perde um n�, o sistema redireciona para outro local de trabalho dos dados e o processamento continua.

O projeto Hadoop inclui os seguintes m�dulos:

Hadoop Common: Os utilit�rios comuns que suportam os outros m�dulos do Hadoop;
Hadoop Distributed File System (HDFS �): Um sistema de arquivos distribu�do que fornece acesso high-throughput de dados do aplicativo;
Hadoop FIO: Um framework para programa��o de trabalho e gest�o de recursos de cluster;
Hadoop MapReduce: Um sistema baseado em FIO para processamento paralelo de grandes conjuntos de dados.

Especialistas informam que as tecnologias Hadoop est�o se tornando fundamentais para ajudar empresas a gerirem grandes volumes de dados. Entre as principais organiza��es que abra�aram a ferramenta est�o NASA, Twitter e Netflix.

Este artigo buscou apresentar e esclarecer o conceito Big Data de forma a facilitar o entendimento e sua utiliza��o nas organiza��es. O conceito de Big Data traz v�rias defini��es se analisado sob diversas �ticas, mas ainda assim pode ser resumido como conceitos e tecnologias de se trabalhar com grandes volumes de dados, de diferentes tipos, a uma velocidade consider�vel. Com isso, visa auxiliar as organiza��es para que tenham diferencial de mercado.

As vantagens de se trabalhar como o Big Data s�o in�meras, mas o grande diferencial � que o Big Data auxilia as organiza��es no conhecimento profundo dos seus neg�cios e as faz perceber e chegar � combina��o ideal de dados e informa��es sobre o cliente e o mercado, dados estes que favorecem a estrat�gia, efic�cia, aceita��o da proposta de valor e as faz alcan�ar avan�os na realiza��o dos objetivos estrat�gicos da empresa.

Em contrapartida, existem alguns desafios a como trabalhar com a privacidade dos dados e a falta de m�o de obra qualificada na �rea.

O n�mero de empresas que tem aderido ao conceito de Big Data tem aumentado desde a formaliza��o do seu conceito, mas ainda existe uma certa cautela devido a custos elevados e o pouco conhecimento que se tem a respeito do assunto. Contudo, existem casos de sucesso como a empresa Bosch, que tem adotado os conceitos de Big Data e tirado proveito de suas vantagens.

Para sustentar o Big Data, existem tecnologias de infraestrutura, que armazenam e processam os petabytes de dados e tecnologias analytics. Para trabalhar processamento de muitos dados em tempo real, tem se usado bancos NoSQL, que permitem alto desempenho e recupera��o baseada em �ndice. J� para processamento em lote, tem sido usada a t�cnica MapReduce, que se trata de um modelo computacional distribu�do.

Diante de v�rios conceitos, confirma��es e d�vidas que est�o em torno ao Big Data, alguns autores apontam que essa tecnologia est� crescendo e que � a tend�ncia dos pr�ximos anos.

Saiu na DevMedia!

Que JavaScript � esse?:
Apresentamos aqui o JavaScript na sua vers�o mais moderna. Ao acompanhar os cursos dessa s�rie voc� se sentir� � vontade para programar em Angular, React ou Vue.

Saiba mais sobre Big Data ;)

Engenharia de Software:
Encontre aqui os Guias de estudo sobre os principais temas da Engenharia de Software. De metodologias �geis a testes, de requisitos a gest�o de projetos!

Refer�ncias:

AGRAWAL, Divyakant; BERNSTEIN, Philip; BERTINO, Elisa et. al. Challenges and Opportunities with Big Data.EUA: 2011/2012
GREGO, Mauricio. Big Data deve movimentar 114 bilh�es de d�lares em 2018. Exame.com
TAURION, Cezar. Big Data . S�o Paulo: Brasport, 2013.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Por Devmedia Em 2014

<Formação completa Programador FullStack/>

Conteúdo Front-end, Back-end e Mobile
Plano de estudo linear
+10 mil exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Suporte 365 dias do ano
12 meses de acesso

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso