Pular para o conteúdo
O Complemento de Dois
  • Concursos
  • Calculadora
  • Estudos
  • Discord
  • Publicações
Home / Big data / Data lake

Data lake

Conceito

Um Data Lake (lago de dados) é um repositório centralizado que permite armazenar todos os seus dados, estruturados e não estruturados, em qualquer escala.

Ideias associadas

  • Schema-on-read
    Associado ao processo ELT (extract, load, transform), onde os dados são transformados no momento de sua utilização.
  • Data swamp
    Um repositório de dados que, devido à falta de governança, catalogação, metadados e controle de qualidade, se tornou inacessível, inseguro e inutilizável para análises, transformando-se efetivamente em um “pântano” onde os dados “afundam” e perdem seu valor.
  • Data pond
    O Data Pond (lagoa de dados) é um subconjunto de um Data Lake. Ele surge quando você separa uma parte dos dados brutos do lago para um projeto específico, um time de Ciência de Dados ou uma finalidade temporária.

Data lakehouse

Um Data Lakehouse é uma arquitetura de dados moderna e aberta que combina a flexibilidade, escalabilidade e baixo custo do data lake (para armazenar todos os tipos de dados) com o desempenho, a estrutura e a gestão de dados de um data warehouse (como transações ACID, governança e otimização de consultas), tudo em uma única plataforma unificada.

O que o lakehouse resolve em relação ao lake puro?

  • Garante transações ACID (Atomicidade, Consistência, Isolamento e Durabilidade);
  • Oferece isolamento de snapshot e controle de leituras simultâneas;
  • Mantém múltiplas versões dos dados facilitando auditorias, reprodução de modelos e recuperação de erros;
  • Schema enforcement (validação na escrita para garantir conformidade) e oferece schema evolution controlada, permitindo mudanças na estrutura;
  • Otimização do desempenho em consultas SQL;
  • Governança e segurança com ajuste fino;
  • Integração com BI e ML diretamente na mesma cópia dos dados, eliminando a necessidade de mover dados para outro sistema.

Arquitetura medalhão

  • Camada Bronze (Raw): Onde o dado chega bruto (o “Load” do ELT). É a fotografia fiel da fonte.
  • Camada Silver (Trusted): Onde ocorre a primeira transformação. Os dados são limpos, duplicatas são removidas e os tipos de dados são ajustados.
  • Camada Gold (Refined): Dados prontos para o negócio. Aqui eles já estão agregados e formatados para alimentar dashboards ou modelos de IA.

Outras classificações

Função do DadoNomenclatura InmonNomenclatura MedalhãoOutros nomes comuns
Entrada bruta, tal qual veio da fonte.Raw Data PondBronzeLanding, Staging, Ingestão, Transient.
Dados limpos, integrados e padronizados.Analog / Textual PondSilverTrusted, Refined, Cleansed, Integration.
Dados prontos para o negócio e BI.Application Data PondGoldCurated, Business, Analytical, Presentation.
Dados históricos e de baixo acesso.Archival Data PondCold StorageDeep Archive, Glacier, Histórico.

Categorias: Big data
Tags: data, lake, lakehouse
Publicado em: 17/03/2026 09:04 e Atualizado em: 18/03/2026 08:18

Compartilhe este post:

Facebook Twitter LinkedIn WhatsApp

Navegação de Post

Post anterior: Forense Computacional
Próximo post: Machine learning

Posts Recentes

  • GoF
    Padrões de Projeto GoF1 de junho de 2026
  • POO
    Programação Orientada a Objetos (POO)1 de junho de 2026
  • CMMI-20
    CMMI-DEV v2.031 de maio de 2026
  • RUP
    RUP (Rational Unified Process)31 de maio de 2026
  • scrum
    Scrum31 de maio de 2026
  • Política de privacidade

2026. O Complemento de Dois. Todos os direitos reservados.