Conhecendo o Apache Hive

Por que eu devo ler este artigo:Este artigo apresenta o Apache Hive, um software de data warehouse que funciona sobre o Hadoop, mostrando seus principais conceitos e demonstrando sua forma de utiliza��o.

Esse tema � �til em situa��es onde se tem uma grande quantidade de dados que precisam ser armazenados de forma distribu�da, sendo necess�rio extrair, manipular ou carregar parte dessas informa��es de forma r�pida e confi�vel, podendo faz�-lo de forma simples atrav�s de um mecanismo de pesquisa baseado em SQL.

Vemos uma quantidade cada vez maior de informa��o sendo gerada, seja atrav�s do avan�o das m�dias sociais e servi�os de internet, de uma crescente demanda por conte�dos cada vez mais diversificados ou ainda por pesquisas e explora��es feitas no ramo da ci�ncia.

O fato � que, dependendo do tipo da necessidade envolvida, se faz necess�rio o armazenamento de uma quantidade de informa��o t�o grande e complexa, da ordem de muitos terabytes, que se torna invi�vel tentar manipul�-la com ferramentas tradicionais.

Esse grande conjunto de dados, conhecido como "big data", e a dificuldade em lidar com essas informa��es acontece, em v�rios casos, n�o s� pelo volume de dados armazenados, mas tamb�m por outros crit�rios como a velocidade com que esses dados chegam para serem armazenados, o tempo no qual eles devem ser processados, al�m dos tipos de dados que devem ser tratados e armazenados, sejam eles logs de aplica��o, imagens, �udios, v�deos etc.

Um grande problema quando se fala em big data se refere a como esses dados ser�o manipulados de forma eficaz. Como ser�o feitos a captura, o armazenamento, o processamento, a an�lise e apresenta��o dos dados?

Uma forma de se resolver parte desse problema � atrav�s de processamento paralelo, onde os dados s�o divididos em por��es menores e distribu�dos para serem processados. Para algo do tipo, � necess�ria uma plataforma robusta e escal�vel, com v�rias m�quinas, para se conseguir realizar a tarefa.

Isso sem contar a necessidade da replica��o dos dados para se evitar rupturas e perdas de informa��o.

Ainda � necess�rio que as informa��es sejam processadas de forma independente (em cada m�quina em separado) ou, caso contr�rio, pode haver um gargalo na rede e consequentemente um comprometimento de toda a plataforma.

Depois das informa��es processadas e armazenadas, precisaremos analisar e apresentar esses dados de forma eficiente.

Nesse cen�rio complexo, temos algumas ferramentas que podem nos auxiliar. � o caso do conjunto de ferramentas da Apache relacionado ao big data que formam o ecossistema do Hadoop.

O Hadoop, por sua vez, � um software open source desenvolvido para armazenamento e processamento de uma grande quantidade de dados de forma distribu�da.

Arquitetura do Hadoop

O Hadoop utiliza um sistema de arquivos distribu�do, conhecido como HDFS (Hadoop Distributed File System), que foi inspirado no sistema de arquivos do Google (Google file system).

O HDFS tem muitas semelhan�as com outros sistemas distribu�dos, no entanto apresenta caracter�sticas pr�prias como, por exemplo, ser tolerante a falhas e projetado para hardwares de baixo custo, al�m de possuir alta disponibilidade de acesso e ser perfeito para aplica��es com um grande conjunto de dados.

O Hadoop divide os arquivos em grandes blocos de mem�ria (64MB ou 128MB) e distribui os blocos entre os n�s do cluster. Para processar os dados recebidos, o Hadoop os processa remotamente atrav�s de cada n�.

O HDFS possui dois tipos de n�s: master, conhecido tamb�m como namenode, e os workers, ou datanodes. O master armazena as informa��es da distribui��o de arquivos e metadados. J� os workers armazenam os dados propriamente ditos.

Essa t�cnica permite que os dados sejam processados de forma mais r�pida e eficiente, por ser distribu�da, do que outras formas como, por exemplo, um processamento local das informa��es.

O framework do Hadoop � composto pelos seguintes m�dulos (Figura 1):

� Hadoop Common - libs e utilit�rios necess�rios aos outros m�dulos do Hadoop;

� Hadoop Distributed File System (HDFS) - sistema de arquivos distribu�dos;

� Hadoop MapReduce - processador de dados em larga escala

� Hadoop YARN - ger ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO

Desbloqueie toda a DevMedia

+2000 artigos e v�deos
+40 trilhas sobre Front-end, Back-end, IA e muito mais
+5000 exerc�cios pr�ticos
Mentorias ao vivo individuais

at� 50% OFF

A partir de

R$ 69 /m�s

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Por Rodrigo Em 2015

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Fabio Silva

Excelente! Mas como consumir dados com uma aplica��o .Net C# ?

há +1 ano

Ver coment�rios anteriores (5)

Daniella Gomes

DevMedia

Oi F�bio, blz!?
A ideia � bacana e por isso enviamos o pedido de conte�do para a nossa equipe editorial, ok ;)
Forte abra�o[]

há +1 ano

Conhecendo o Apache Hive

Este artigo apresenta o Apache Hive, discutindo seus principais conceitos e demonstrando sua forma de utiliza��o.

Desbloqueie toda a DevMedia

Confira outros conte�dos: