Por que eu devo ler este artigo:Um grande volume de informações é gerado diariamente em todas as partes do mundo e informações das mais variadas possíveis. Esta tendência é conhecida pelo termo Big Data.

Mas para lidar com Big Data é necessário uma infraestrutura capaz de gerenciar o armazenamento e recuperação destas informações de maneira rápida e confiável. Neste contexto, o Hadoop se apresenta como uma ótima solução para o armazenamento de grandes volumes de dados não estruturados, oferecendo bom desempenho e confiabilidade através de alta disponibilidade.

O artigo trata da tecnologia de armazenamento de dados não estruturados, conhecido como Hadoop.

Big Data é o termo usado para definir uma coleção de dados tão grande e complexo que se torna difícil de processar usando as tradicionais ferramentas de gerenciamento de banco de dados ou aplicações de processamento de dados tradicionais. Os desafios incluem a captura, gerenciamento, armazenamento, busca, compartilhamento, transferência, análise, e visualização.

A partir de 2012, a limitação de tamanho dos conjuntos de dados que são viáveis para serem processados em uma quantidade razoável de tempo foi na ordem de ExaBytes de dados.

Cientistas encontram várias limitações devido a grandes volumes de dados em diversas áreas como: meteorologia, simulações de física complexa, pesquisa biológica e ambiental. As limitações também afetam pesquisas na internet, finanças e informática de negócios.

O volume de dados cresce, em parte, porque estão cada vez mais sendo geradas informações através de dispositivos móveis de detecção de informação, tecnologias sensoriais aéreas (sensoriamento remoto), registros de software, câmeras, microfones, leitores de identificação de radiofrequência e redes de sensores sem fio.

A capacidade tecnológica mundial (por habitante) para armazenar informações praticamente dobra a cada 40 meses desde a década de 1980; desde 2012, diariamente 2,5 ExaBytes (2,5 × 1018) de dados foram criados.

É muito complexo trabalhar com Big Data através de sistemas de gerenciamento de banco de dados relacionais e pacotes de visualização, pois necessitam de “sistemas de execução massiva em paralelo, sendo executados em dezenas, centenas ou mesmo milhares de servidores”.

O que é considerado “Big Data” varia dependendo dos recursos da organização que gerencia estes dados, e também das capacidades dos aplicativos que são tradicionalmente utilizados para processar e analisar o conjunto de dados no domínio específico.

Big Data geralmente inclui conjuntos de dados com tamanhos além da capacidade de ferramentas de software tradicionais para capturar, gerenciar e processar os dados dentro de um tempo de execução tolerável.

O tamanho de Big Data é algo que está em constante movimento, algo que vai desde algumas dezenas de TeraBytes até muitos PetaBytes de dados em um único conjunto de dados.

Em um relatório de 2001, o analista Douglas Laney (do Grupo META - atualmente Gartner) definiu os desafios do crescimento de dados e oportunidades como sendo tridimensional, ou seja, o aumento de volume (quantidade de dados), velocidade (velocidade de dados entrando e saindo) e variedade (gama de tipos de dados e as fontes).

O Gartner, e atualmente grande parte das indústrias, utiliza este modelo “tridimensional” para descrever Big Data. Em 2012, o Gartner atualizou sua definição da seguinte forma: “Big Data é alto volume, alta velocidade e/ou alta variedade de ...

Quer ler esse conteúdo completo? Seja um assinante e descubra as vantagens.
  • 473 Cursos
  • 10K Artigos
  • 100 DevCasts
  • 30 Projetos
  • 80 Guias
Tenha acesso completo