Conhecendo o Apache Hive

Por que eu devo ler este artigo:Este artigo apresenta o Apache Hive, um software de data warehouse que funciona sobre o Hadoop, mostrando seus principais conceitos e demonstrando sua forma de utiliza��o.

Esse tema � �til em situa��es onde se tem uma grande quantidade de dados que precisam ser armazenados de forma distribu�da, sendo necess�rio extrair, manipular ou carregar parte dessas informa��es de forma r�pida e confi�vel, podendo faz�-lo de forma simples atrav�s de um mecanismo de pesquisa baseado em SQL.

Vemos uma quantidade cada vez maior de informa��o sendo gerada, seja atrav�s do avan�o das m�dias sociais e servi�os de internet, de uma crescente demanda por conte�dos cada vez mais diversificados ou ainda por pesquisas e explora��es feitas no ramo da ci�ncia.

O fato � que, dependendo do tipo da necessidade envolvida, se faz necess�rio o armazenamento de uma quantidade de informa��o t�o grande e complexa, da ordem de muitos terabytes, que se torna invi�vel tentar manipul�-la com ferramentas tradicionais.

Esse grande conjunto de dados, conhecido como "big data", e a dificuldade em lidar com essas informa��es acontece, em v�rios casos, n�o s� pelo volume de dados armazenados, mas tamb�m por outros crit�rios como a velocidade com que esses dados chegam para serem armazenados, o tempo no qual eles devem ser processados, al�m dos tipos de dados que devem ser tratados e armazenados, sejam eles logs de aplica��o, imagens, �udios, v�deos etc.

Um grande problema quando se fala em big data se refere a como esses dados ser�o manipulados de forma eficaz. Como ser�o feitos a captura, o armazenamento, o processamento, a an�lise e apresenta��o dos dados?

Uma forma de se resolver parte desse problema � atrav�s de processamento paralelo, onde os dados s�o divididos em por��es menores e distribu�dos para serem processados. Para algo do tipo, � necess�ria uma plataforma robusta e escal�vel, com v�rias m�quinas, para se conseguir realizar a tarefa.

Isso sem contar a necessidade da replica��o dos dados para se evitar rupturas e perdas de informa��o.

Ainda � necess�rio que as informa��es sejam processadas de forma independente (em cada m�quina em separado) ou, caso contr�rio, pode haver um gargalo na rede e consequentemente um comprometimento de toda a plataforma.

Depois das informa��es processadas e armazenadas, precisaremos analisar e apresentar esses dados de forma eficiente.

Nesse cen�rio complexo, temos algumas ferramentas que podem nos auxiliar. � o caso do conjunto de ferramentas da Apache relacionado ao big data que formam o ecossistema do Hadoop.

O Hadoop, por sua vez, � um software open source desenvolvido para armazenamento e processamento de uma grande quantidade de dados de forma distribu�da.

Arquitetura do Hadoop

O Hadoop utiliza um sistema de arquivos distribu�do, conhecido como HDFS (Hadoop Distributed File System), que foi inspirado no sistema de arquivos do Google (Google file system).

O HDFS tem muitas semelhan�as com outros sistemas distribu�dos, no entanto apresenta caracter�sticas pr�prias como, por exemplo, ser tolerante a falhas e projetado para hardwares de baixo custo, al�m de possuir alta disponibilidade de acesso e ser perfeito para aplica��es com um grande conjunto de dados.

O Hadoop divide os arquivos em grandes blocos de mem�ria (64MB ou 128MB) e distribui os blocos entre os n�s do cluster. Para processar os dados recebidos, o Hadoop os processa remotamente atrav�s de cada n�.

O HDFS possui dois tipos de n�s: master, conhecido tamb�m como namenode, e os workers, ou datanodes. O master armazena as informa��es da distribui��o de arquivos e metadados. J� os workers armazenam os dados propriamente ditos.

Essa t�cnica permite que os dados sejam processados de forma mais r�pida e eficiente, por ser distribu�da, do que outras formas como, por exemplo, um processamento local das informa��es.

O framework do Hadoop � composto pelos seguintes m�dulos (Figura 1):

� Hadoop Common - libs e utilit�rios necess�rios aos outros m�dulos do Hadoop;

� Hadoop Distributed File System (HDFS) - sistema de arquivos distribu�dos;

� Hadoop MapReduce - processador de dados em larga escala

� Hadoop YARN - gerenciador de recursos e processador das tarefas de MapReduce.

O MapReduce � um modelo computacional que decomp�e jobs (tarefas) de manipula��o de uma grande quantidade de dados em tarefas individuais (aqui chamadas de tasks) para serem executadas em paralelo atrav�s de um cluster de servidores.

O modelo de MapReduce foi desenvolvido pelo Google. Ele est� associado a duas opera��es fundamentais de transforma��o de dados, map e reduce. A opera��o de map converte elementos de uma cole��o de uma forma para outra. Nesse caso, uma entrada de pares �chave-valor� � convertida para uma cole��o �zero para muitos�, aonde v�rios valores com a mesma chave s�o agregados.

Numa opera��o de MapReduce, todos os pares s�o enviados para uma mesma opera��o de reduce. Ou seja, a chave e a cole��o de valores associados �quela chave s�o passados para uma mesma opera��o. A opera��o de reduce converte a cole��o para um valor como a soma, ou a m�dia de valores da cole��o, gerando um par �chave-valor� final.

A partir da vers�o 2.x, o Hadoop passou a utilizar um novo componente como gerenciador de recursos e processador das tarefas de MapReduce, conhecido como MapReduce 2.0 (MRv2) ou YARN. A ideia por tr�s do YARN � separar os processos das duas maiores funcionalidades do JobTracker: o gerenciador de recursos e o agendador de tarefas.

Arquitetura macro do hadoop

Figura 1. Arquitetura macro do hadoop

Necessidade de uma camada de abstra��o - Apache Hiv ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

<Saiba por que programar é uma questão de sobrevivência e como aprender sem riscos/>

Perguntas frequentes

Quem somos?

A DevMedia é uma escola de formação de programadores com mais de 20 anos de mercado. Já formamos mais de 100 mil programadores. A DevMedia ensina programação web, (desenvolvimento de site e aplicativos para celulares). A programação web é a área que mais contrata programadores em todo o mundo, sendo a maior porta de entrada para a área da tecnologia.

Por que a programação se tornou a profissão mais promissora da atualidade?

Nunca o mundo necessitou tanto de programadores como atualmente. Com a quarentena estabelecida pela Covid-19, lojas, restaurantes, escritórios e escolas, que tiveram suas atividades paralisadas, perceberam a urgente necessidade de adaptar seus negócios para o mundo digital. Em contrapartida as empresas de tecnologias, durante esse período, cresceram como nunca tanto em faturamento quanto em número de usuários. Com isso a necessidade de programadores cresceu muito. Empresas de grande e pequeno porte estão com vagas abertas e não conseguem contratar por falta de profissionais qualificados. No momento estima-se que o número de oportunidades no Brasil seja acima de 200 mil!

Como faço para começar a estudar?

Programação é um universo amplo, existem muitos caminhos e por isso é muito fácil se perder. Nosso conselho é: NÃO ESTUDE SOZINHO. Infelizmente 78% das pessoas que começam a estudar sozinhas desistem da profissão por não conseguirem aprender. Com uma boa orientação elas teriam conseguido! Se você tomou a decisão de entrar nesse mercado, faça um investimento no seu futuro e busque aprender com quem sabe. Isso vai triplicar suas chances de dominar a programação e conquistar uma vaga no mercado.

Em quanto tempo de estudo vou me tornar um programador?

O tempo depende, claro, da dedicação de cada estudante. A DevMedia ensina programação há 20 anos e com toda essa experiência montamos uma metodologia que tem como objetivo principal acelerar os seus estudos. Você terá um Plano de Estudo para te orientar em todos os passos do aprendizado. Desenvolverá diversos projetos reais para colocar em prática os conhecimentos e contará com o melhor suporte ao aluno da web. Todas as suas dúvidas serão respondidas de imediato. Seguindo nossa metodologia e se dedicando, entre 6 meses e um ano você já estará programando.

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

Ser programador é uma das maiores oportunidades que o Brasil oferece para quem não tem condições de fazer uma faculdade. Muitas empresas contratam sem fazer questão de diploma, o que importa para elas é que o candidato seja um bom técnico e consiga atender suas necessidades. Os salários iniciais para programadores são de R$2.500 mil, podendo chegar aos R$15 mil para aqueles que se dedicam. Com disciplina e um estudo correto, que não te faça perder tempo, é possível se tornar um programador em menos de um ano de estudo. Quando você já estiver empregado, aí sim você pode se aprimorar ainda mais fazendo uma faculdade na área.

O que eu irei aprender estudando pela DevMedia?

Nossas trilhas de estudo te permitem virar um programador Full Stack, que é aquele programador mais completo, ele domina o desenvolvimento Front-end, Back-end e Mobile. Você ficará apto para criar sistemas para computadores e aplicativos para celulares. Utilizamos como base a linguagem JavaScript que é a linguagem mais utilizada no mundo. Outra vantagem do JavaScript é a quantidade de oportunidades no mercado de trabalho. É sem dúvida a linguagem que mais possui vagas e a que mais dá oportunidade para os iniciantes.

Principais diferenciais da DevMedia

Suporte ao aluno - O aluno conta com a ajuda de professores para tirar dúvidas durante toda a jornada de ensino. As perguntas são respondidas em menos de uma hora por professores experientes e atuantes no mercado. Gamificação - A plataforma de ensino é divertida e motivante. É como se o aluno estivesse dentro de um game. Ele terá seu card pessoal, que poderá ser customizado utilizando as moedas que ele ganha quando acerta os exercícios. Ele poderá também trocar suas moedas por outros produtos dentro da plataforma. Além disso, seus acertos contam pontos no ranking mensal dos alunos. Tudo isso deixa os estudos mais leves e motivantes. Didática - A DevMedia já ensina programação há mais de 20 anos. Desenvolvemos ao longo desse tempo uma metodologia que ensina a programar de verdade, com menos aulas e mais prática, são dezenas de projetos e exercícios que desenvolvem a mente programadora no aluno. Projetos reais - Durante os estudos os alunos irão desenvolver dezenas de projetos em cada uma das carreira (front-end, back-end e mobile). Mas o principal é que os projetos da DevMedia não são “copia e cola” como se encontra por aí. Aqui o aluno vai desenvolver os projetos de forma autônoma, recebendo claro a nossa mentoria e suporte, mas o aluno terá condições para desenvolvê-los sozinho. Milhares de exercícios - Programação é prática, por isso a cada nova matéria o aluno passará por um bloco de exercícios para fixar o conteúdo e cada acerto será bonificado com pontos e moedas e valem uma posição no ranking dos alunos.

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Na internet é possível encontrar cursos de todos os preços, desde 50,00 a R$15.000,00. Os cursos de 50,00 são cursos avulsos, que explicam apenas pedaços de uma determinada matéria. Para criar um conhecimento completo você precisaria comprar no mínimo de 15 a 20 cursos avulsos e correria o risco deles não se complementarem tão perfeitamente e seu conhecimento ficaria cheio de "buracos". Os cursos de R$15.000,00 não fazem nenhum sentido. Deixe para investir em cursos caros quando quiser se especializar. Por esse preço você pode inclusive estudar fora do pais. Na DevMedia, você terá um plano de estudo montado por quem já formou mais de 100 mil alunos, e já está nesse mercado há mais de 20 anos. Somos a única plataforma que oferece Suporte ao Aluno em tempo real e uma experiência de estudos gamificada para te manter motivado durante todo o período de estudo. E o melhor, nosso pagamento é recorrente, você não precisa usar o limite do seu cartão de crédito para investir no seu futuro. Aproveite para se matricular agora mesmo.

Como funciona a forma de pagamento da DevMedia?

Para que você possa investir nos seus estudos sem complicar sua vida financeira, a DevMedia cobra o valor da assinatura de forma recorrente, Igual o Netflix. Todos os meses debitamos o valor da parcela em seu cartão de crédito, sem comprometer o limite total do cartão. :) As primeiras 3 parcelas custam R$89,90 e a partir do 4o mês sua parcela diminui para R$49,90! Assim ela pesa cada vez manos no seu bolso! Nesse modelo, a gente te ajuda a pagar seus estudos, mas você precisa ajudar a gente a pagar nossos custos. Por isso a assinatura recorrente tem uma fidelidade de um ano. Essa fidelidade também vai te ajudar a se manter comprometido com os seus estudos. Temos um trato?

Por Rodrigo Em 2015

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Fabio Silva
N�vel 11

Excelente! Mas como consumir dados com uma aplica��o .Net C# ?

há +1 ano

Ver coment�rios anteriores (5)

Daniella Gomes
DevMedia

Oi F�bio, blz!?
A ideia � bacana e por isso enviamos o pedido de conte�do para a nossa equipe editorial, ok ;)
Forte abra�o[]

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Compartilhe esse conte�do com um amigo!
Fa�a login para ganhar recompensas.
Copie o link e envie para seus amigos
Ou

Conhecendo o Apache Hive

Este artigo apresenta o Apache Hive, discutindo seus principais conceitos e demonstrando sua forma de utiliza��o.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Perguntas frequentes

Nossos casos de sucesso