ETL – Extract Transform Load, são as técnicas para Extrair – Transformar – Carregar dados, o processo de ETL normalmente baseado em softwares e programação.Esses softwares, cuja função é a extração de dados de diversos sistemas, transformação desses dados conforme regras de negócios e por fim a carga dos dados em um Data Mart ou um Data Warehouse.
Existem muitas ferramentas de ETL disponíveis no mercado como IBM Information Server (Data Stage), o Oracle Data Integrator (ODI), o Informatica Power Center, o Microsoft Integration Services (SSIS). Existe também um conjunto de Ferramentas de ETL Open Source como o PDI – Pentaho Data Integrator e Talend ETL.
A tecnologia, além de mudar os hábitos, influencia e transforma as pessoas em suas atividades profissionais. O BI – Business Intelligence veio para agregar agilidade à nova realidade das empresas, estreitando a relação entre gestão e técnica.Quando se busca sucesso em qualquer ramo de negócio, é necessário que o banco de dados seja bem estruturado, ou seja, as informações devem ser consistentes e mapeadas, para em seguida serem aplicadas as transformações de limpeza e consolidação dos dados e finalmente o carregamento desses dados.
O processo de extração, transformação e carregamento (ETL) abrange alguns passos importantes. Como exemplo, podemos considerar um Banco de dados de Clientes Especiais com todas as informações essenciais.
No mapeamento, a extração de origem deve conter a especificação da identidade e seus atributos detalhados, tudo armazenado numa zona temporária. Quando forem efetuadas as análises e filtragens dos dados, a nova versão poderá ser comparada com a cópia da versão prévia.
A transformação inclui limpeza, racionalização e complementação dos registros. O processo de limpeza removerá erros e padronizará as informações. O processo de complementação implicará no acréscimo de dados.
Antes de empenhar esforços de transformação de dados é fundamental diagnosticar e compreender os problemas. Os mais comuns são dados incompletos, formatação errada. No sistema existem ferramentas disponíveis que corrigem inconsistências variadas.
Algumas vantagens das ferramentas de ETL na otimização e integração de dadosGarantia significativa da qualidade dos dadosA Ferramentas de ETL, através de sequências de operações e instruções tem condições de solucionar problemas de maior complexidade.
Funcionalidade de execuçãoUma ferramenta de ETL já possui suas funções específicas, sendo necessária apenas a atenção no fluxo de dados.
Desenvolvimento das cargasMesmo que o usuário não seja técnico poderá desenvolver uma rotina de carga em uma ferramenta de ETL, devido a facilidade e rapidez para codificação.
Manutenção das cargas As tarefas de manutenção de uma rotina de carga são mais simples de realizar em relação à manutenção de código.
Metainformação Os metadados (informações úteis para identificar, localizar, entender e gerenciar os dados) são gerados e mantidos de forma automática com a ferramenta, evitando problemas de geração de informações incorretas na finalização do processo. A manutenção de metadados também evita ou avisa para disparidades que possam invalidar a carga. Os metadados associam um significado mais tangível à atividade de administração dos dados gerados.
Performance Os métodos mais usados para trabalhar com grandes volumes conseguem extrair, transformar e carregar dados com maior velocidade e menos recursos, como gravações em bloco e operações não logadas.
Transferência Ferramentas de ETL podem ser deslocadas de um servidor mais facilmente ou distribuídas entre vários servidores.
Conectividade A conexão de uma ferramenta de ETL com múltiplas fontes de dados é transparente. Caso sejam precisas mais fontes como o SAP, VSAM, Mainframe ou qualquer outra, basta a aquisição do conector sem a necessidade de codificar um.
Reinicialização Ferramentas de ETL possuem a capacidade de reiniciar a carga de onde pararam sem a necessidade de codificação.
Segurança e Estabilidade É possível articular melhor a segurança tornado-a mais modular, dividindo as finalidades (criação de cargas, execução de cargas, agendamento, etc.)
ETL PARA BIG DATA
Hoje com o crescimento dos projetos de Big Data aumenta-se mais ainda a necessidade de fazer ETL entre plataformas heterogêneas, para isso, projetos como o Hadoop, possuem ferramentas próprias para carga de dados, como :
Mesmo com todas as possibilidades acima, vemos as ferramentas de ETL se adaptando para BigData ou gerando códigos para serem rodados nessas ferramentas do Ecosistema Hadoop. #powercenter #etl #integracaodedados #dataintegration
Se você gostou, inscreva se, mande sua opinião!
Meu e-mail: diogo.vidal@outlook.com | Diogo Vidal
Comments