O Data Warehouse (DW), ou armazém de dados, é a principal tecnologia adotada para a implementação do Business Intelligence. Com ela é possível a consolidação de informações estratégicas para a organização num repositório centralizado e de fácil acesso.
Com o DW é possível, entre outras coisas, o cruzamento de informações de forma muito mais dinâmica e intuitiva, possibilitando visualizações de cenários e análises gerenciais que apoiam a decisão.
Um dos benefícios do DW é sua grande capacidade de armazenamento e velocidade de respostas. A modelagem multidimensional além de permitir a busca rápida das informações, proporciona uma estrutura que suporta grandes volumes de dados, se comparado aos bancos de dados tradicionais.
Vale ressaltar que o Data Mart é um subconjunto do DW. Vários Data Marts podem compor um único DW. Por exemplo, podemos ter em uma organização um DW compostos pelo Data Mart financeiro, o Data Mart de RH, Data Mart de Marketing e assim por diante. É como se fosse uma subdivisão, uma departamentalização dos assuntos do Data Warehouse.
Saindo um pouco das definições e deixando um pouco a literatura de lado... Na prática, quais são as etapas necessárias para construção de um Data Warehouse?
As etapas do DW são:
- Construção da Matriz de Necessidades
- Avaliação da Fonte de Dados
- Construção da Staging Area
- Construção das Dimensões
- Construção das Fatos
- Definição do Processo Geral de Carga
- Criação dos Metadados
Construímos a matriz de necessidades com base no que será necessário ser incorporado ao DW, fazendo o correto levantamento e identificação dos indicadores. Na matriz é acrescentado todos os requisitos do DW e relacionado com as métricas e seus respectivos descritores. Em tese, todas as métricas (ou mensurações numéricas) são armazenados nas tabelas fatos e os descritores nas tabelas dimensionais. Na matriz de necessidade é importante também avaliar quais os campos que deverão ser historiados, identificando-os neste documento.
Na próxima etapa, é importante avaliar a fonte de dados e verificar a disponibilidade de todas as informações elencadas na matriz. Além do mais, é necessário efetuar o mapeamento desses dados para a futura extração. Caso tudo esteja OK, prosseguimos para a próxima etapa.
A staging area é uma etapa muito importante no desenvolvimento do Data Warehouse. É a área intermediária onde são armazenadas temporariamente os dados extraídos da origem e que serão devidamente tratados e armazenados no DW. A staging area é o subsídio necessário para a carga das dimensões e fatos.
Após a construção das dimensões e em seguida as fatos, podemos iniciar a construção do processo de carga geral. Ela detém toda a inteligência e lógica de carga do DW. Possui a frequência, tipo de carga (incremental ou total), processo de versionamento (histórico) e sequência de carga.
Por fim, todo DW precisa ter um documento de metadados que possua todas as informações do desenvolvimento do DW. Esse documento possui, dentre muitas coisas, as informações de origem dos dados, formato dos dados, fluxo dos dados, processo de carga, transformações dos dados, regras de acesso, responsável pela informação, definição dos níveis de acesso, perfis de acesso, e etc.. É elaborado de forma incremental a cada Data Mart concluído.
Normalmente a construção de um DW se dá através da concepção de vários Data Marts. Os Data Marts são construídos seguindo as mesmas etapas do DW:
Este processo se repete em cada Data Mart até que se preencha as lacunas do Data Warehouse, onde será englobado os assuntos estratégicos da organização.
Finalmente, para ficar claro, mostro graficamente como seria todo o processo de construção do DW:
Fonte de dados: abrange todos os dados de origem que irão compor as informações do DW. Compreende os sistemas OLTP, arquivos em diversos formatos (XLS, TXT, etc), sistemas de CRM, ERP, entre vários outros.
ETL: o ETL, do inglês Extract, Transform and Load, é o principal processo de condução dos dados até o armazenamento definitivo no DW. É responsável por todas as tarefas de extração, tratamento e limpeza dos dados, e inserção na base do DW.
Staging Area: a Staging Area é uma área de armazenamento intermediário situada dentro do processo de ETL. Auxilia a transição dos dados das origens para o destino final no DW.
Data Warehouse: essa é a estrutura propriamente dita de armazenamento das informações decisivas. Apenas os dados com valor para a gestão corporativa estarão reunidos no DW.
Data Mart: o Data Mart é uma estrutura similar ao do DW, porém com uma proporção menor de informações. Trata-se de um subconjunto de informações do DW que podem ser identificados por assuntos ou departamentos específicos. O conjunto de Data Marts em conformidade dentro da organização compõe o DW.
OLAP: o OLAP, do inglês On-line Analytical Processing, na arquitetura de um DW se refere as ferramentas com capacidade de análise em múltiplas perspectivas das informações armazenadas.
Data Mining: Data Mining ou Mineração de Dados, se refere as ferramentas com capacidade de descoberta de conhecimento relevante dentro do DW. Encontram correlações e padrões dentro dos dados armazenados.
O fluxo das atividades nessa arquitetura se inicia com a extração dos dados das origens. Esses dados são então armazenados temporariamente na Staging Area, onde são tratados com as regras e padrões predeterminados para então prosseguir para a etapa de carga (Load), em que os dados são carregados no DW. Por fim, essas informações são normalmente consultadas através de ferramentas de análises (OLAP) ou ferramentas de mineração (Data Mining) para encontrar, assim, as respostas e insights necessários para a tomada de decisão.
Portanto, com essa visão geral da arquitetura do DW, é possível conceber e entender melhor o funcionamento dessa tecnologia que há anos vem se destacando no mercado como uma das mais importantes estruturas de armazenamento de informações estratégicas. Cabe as empresas perceberem o valor agregado ao DW e antecipar a concorrência no que tange a gestão das informações que fornecem competitividade e inteligência no mercado, além de favorecerem o crescimento e alcance de resultados positivos na organização.
Comments