Então, o que é Hadoop? Hadoop é um banco de dados? Já ouvi muitas vezes "aquela empresa usa o banco de dados Hadoop". Mas não é bem isso, veja! Hadoop é um ecossistema para computação distribuida, ou seja, criado para comportar o processamento de grandes quantidades de dados (petabytes) com alta velocidade. Esse ecossistema é composto de vários sistemas/tecnologias.
A idéia do Hadoop é realizar um processamento pesado dividindo a tarefa em vários nós (cluster), de forma a aumentar o poder computacional. Para isso acontecer, é utilizado um sistema de arquivos nos nós de cada cluster chamado de HDFS(Hadoop distributed file system), que comporta arquivos com grandes quantidades de dados e o processamento é realizado utilizando uma técnica de programação chamada MapReduce.A seguir um exemplo de sistemas que podem fazer parte desse ecossistema e uma breve explicação sobre cada um.
HDFS -Sistema de arquivos do Hadoop, este sistema de arquivos trabalha de forma distribuída, utilizando grandes blocos de memória.
Map Reduce -Modelo de programação para processamento em larga escala. Tendo como fundamentos o mapeamento(map) e a redução (reduce).
Yarn -Trata-se de uma plataforma de gerenciamento de recursos responsável pelo gerenciamento dos recursos computacionais em cluster, assim como pelo agendamento dos recursos.
Hive -Converte queries SQL em MapReduces.
Pig -Linguagem para criação de MapReduces
Hbase -Um banco da dados NoSQL orientado a colunas (colunar), que pode ser usado sobre o HDFS. Provê acesso a grandes quantidades de dados com alta velocidade.
Flume -Sistema de exportação de logs, contendo grande quantidade de dados para o HDFS
Anbari -Monitoramento de clusters Hadoop
Sqoop -Ferramente de exportação de dados de SGBDS para o Hadoop. Usa JDBC, gera uma classe Java de exportação de dados para cada tabela no esquema relacional
Oozie / Control-M -Agendador/gerenciador de tarefas e Workflows para hadoop.Hoje o Hadoop é mantido pela fundação Apache. E tem como distribuições Enterprise mais conhecidas a da Cloudera e da Hortonworks.
Se você gostou, inscreva se, mande sua opinião!
Meu e-mail: diogo.vidal@outlook.com | Diogo Vidal
Kommentare