Data lake - O Complemento de Dois

Conceito

Um Data Lake (lago de dados) é um repositório centralizado que permite armazenar todos os seus dados, estruturados e não estruturados, em qualquer escala.

Ideias associadas

Schema-on-read
Associado ao processo ELT (extract, load, transform), onde os dados são transformados no momento de sua utilização.

Data swamp
Um repositório de dados que, devido à falta de governança, catalogação, metadados e controle de qualidade, se tornou inacessível, inseguro e inutilizável para análises, transformando-se efetivamente em um “pântano” onde os dados “afundam” e perdem seu valor.

Data pond
O Data Pond (lagoa de dados) é um subconjunto de um Data Lake. Ele surge quando você separa uma parte dos dados brutos do lago para um projeto específico, um time de Ciência de Dados ou uma finalidade temporária.

Data lakehouse

Um Data Lakehouse é uma arquitetura de dados moderna e aberta que combina a flexibilidade, escalabilidade e baixo custo do data lake (para armazenar todos os tipos de dados) com o desempenho, a estrutura e a gestão de dados de um data warehouse (como transações ACID, governança e otimização de consultas), tudo em uma única plataforma unificada.

O que o lakehouse resolve em relação ao lake puro?

Garante transações ACID (Atomicidade, Consistência, Isolamento e Durabilidade);
Oferece isolamento de snapshot e controle de leituras simultâneas;
Mantém múltiplas versões dos dados facilitando auditorias, reprodução de modelos e recuperação de erros;
Schema enforcement (validação na escrita para garantir conformidade) e oferece schema evolution controlada, permitindo mudanças na estrutura;
Otimização do desempenho em consultas SQL;
Governança e segurança com ajuste fino;
Integração com BI e ML diretamente na mesma cópia dos dados, eliminando a necessidade de mover dados para outro sistema.

Arquitetura medalhão

Camada Bronze (Raw): Onde o dado chega bruto (o “Load” do ELT). É a fotografia fiel da fonte.

Camada Silver (Trusted): Onde ocorre a primeira transformação. Os dados são limpos, duplicatas são removidas e os tipos de dados são ajustados.

Camada Gold (Refined): Dados prontos para o negócio. Aqui eles já estão agregados e formatados para alimentar dashboards ou modelos de IA.

Outras classificações

Função do Dado	Nomenclatura Inmon	Nomenclatura Medalhão	Outros nomes comuns
Entrada bruta, tal qual veio da fonte.	Raw Data Pond	Bronze	Landing, Staging, Ingestão, Transient.
Dados limpos, integrados e padronizados.	Analog / Textual Pond	Silver	Trusted, Refined, Cleansed, Integration.
Dados prontos para o negócio e BI.	Application Data Pond	Gold	Curated, Business, Analytical, Presentation.
Dados históricos e de baixo acesso.	Archival Data Pond	Cold Storage	Deep Archive, Glacier, Histórico.

Compartilhe este post: