Data lake
Conceito
Um Data Lake (lago de dados) é um repositório centralizado que permite armazenar todos os seus dados, estruturados e não estruturados, em qualquer escala.
Ideias associadas
- Schema-on-read
Associado ao processo ELT (extract, load, transform), onde os dados são transformados no momento de sua utilização.
- Data swamp
Um repositório de dados que, devido à falta de governança, catalogação, metadados e controle de qualidade, se tornou inacessível, inseguro e inutilizável para análises, transformando-se efetivamente em um “pântano” onde os dados “afundam” e perdem seu valor.
- Data pond
O Data Pond (lagoa de dados) é um subconjunto de um Data Lake. Ele surge quando você separa uma parte dos dados brutos do lago para um projeto específico, um time de Ciência de Dados ou uma finalidade temporária.
Data lakehouse
Um Data Lakehouse é uma arquitetura de dados moderna e aberta que combina a flexibilidade, escalabilidade e baixo custo do data lake (para armazenar todos os tipos de dados) com o desempenho, a estrutura e a gestão de dados de um data warehouse (como transações ACID, governança e otimização de consultas), tudo em uma única plataforma unificada.
O que o lakehouse resolve em relação ao lake puro?
- Garante transações ACID (Atomicidade, Consistência, Isolamento e Durabilidade);
- Oferece isolamento de snapshot e controle de leituras simultâneas;
- Mantém múltiplas versões dos dados facilitando auditorias, reprodução de modelos e recuperação de erros;
- Schema enforcement (validação na escrita para garantir conformidade) e oferece schema evolution controlada, permitindo mudanças na estrutura;
- Otimização do desempenho em consultas SQL;
- Governança e segurança com ajuste fino;
- Integração com BI e ML diretamente na mesma cópia dos dados, eliminando a necessidade de mover dados para outro sistema.
Arquitetura medalhão
- Camada Bronze (Raw): Onde o dado chega bruto (o “Load” do ELT). É a fotografia fiel da fonte.
- Camada Silver (Trusted): Onde ocorre a primeira transformação. Os dados são limpos, duplicatas são removidas e os tipos de dados são ajustados.
- Camada Gold (Refined): Dados prontos para o negócio. Aqui eles já estão agregados e formatados para alimentar dashboards ou modelos de IA.
Outras classificações
| Função do Dado | Nomenclatura Inmon | Nomenclatura Medalhão | Outros nomes comuns |
| Entrada bruta, tal qual veio da fonte. | Raw Data Pond | Bronze | Landing, Staging, Ingestão, Transient. |
| Dados limpos, integrados e padronizados. | Analog / Textual Pond | Silver | Trusted, Refined, Cleansed, Integration. |
| Dados prontos para o negócio e BI. | Application Data Pond | Gold | Curated, Business, Analytical, Presentation. |
| Dados históricos e de baixo acesso. | Archival Data Pond | Cold Storage | Deep Archive, Glacier, Histórico. |