top of page
linear-illustration-slide-presentation-l
building-a-performing-machine-learning-m
623379_orig
Foto do escritorDiogo Vidal

Hadoop é um Banco de dados? O que é Hadoop?

Atualizado: 29 de ago. de 2023

Então, o que é Hadoop? Hadoop é um banco de dados? Já ouvi muitas vezes "aquela empresa usa o banco de dados Hadoop". Mas não é bem isso, veja! Hadoop é um ecossistema para computação distribuida, ou seja, criado para comportar o processamento de grandes quantidades de dados (petabytes) com alta velocidade. Esse ecossistema é composto de vários sistemas/tecnologias. A idéia do Hadoop é realizar um processamento pesado dividindo a tarefa em vários nós (cluster), de forma a aumentar o poder computacional. Para isso acontecer, é utilizado um sistema de arquivos nos nós de cada cluster chamado de HDFS(Hadoop distributed file system), que comporta arquivos com grandes quantidades de dados e o processamento é realizado utilizando uma técnica de programação chamada MapReduce.A seguir um exemplo de sistemas que podem fazer parte desse ecossistema e uma breve explicação sobre cada um.

HDFS -Sistema de arquivos do Hadoop, este sistema de arquivos trabalha de forma distribuída, utilizando grandes blocos de memória. Map Reduce -Modelo de programação para processamento em larga escala. Tendo como fundamentos o mapeamento(map) e a redução (reduce). Yarn -Trata-se de uma plataforma de gerenciamento de recursos responsável pelo gerenciamento dos recursos computacionais em cluster, assim como pelo agendamento dos recursos. Hive -Converte queries SQL em MapReduces. Pig -Linguagem para criação de MapReduces Hbase -Um banco da dados NoSQL orientado a colunas (colunar), que pode ser usado sobre o HDFS. Provê acesso a grandes quantidades de dados com alta velocidade. Flume -Sistema de exportação de logs, contendo grande quantidade de dados para o HDFS Anbari -Monitoramento de clusters Hadoop Sqoop -Ferramente de exportação de dados de SGBDS para o Hadoop. Usa JDBC, gera uma classe Java de exportação de dados para cada tabela no esquema relacional Oozie / Control-M -Agendador/gerenciador de tarefas e Workflows para hadoop.Hoje o Hadoop é mantido pela fundação Apache. E tem como distribuições Enterprise mais conhecidas a da Cloudera e da Hortonworks.


 

Se você gostou, inscreva se, mande sua opinião!

Meu e-mail: diogo.vidal@outlook.com | Diogo Vidal

35 visualizações0 comentário

Posts recentes

Ver tudo

Kommentare


bottom of page