Governança de dados
Governança de dados
Se refere à autoridade e controle sobre a gestão de ativos de dados.
Principais papeis
- Data owner: é o dono do dado, a área de negócio
- Data steward: zelador do dado, garante a qualidade
- Data custodian: custodiante, área de tecnologia e segurança
Qualidade de dados
A garantia de que o dado será útil para a organização
Dimensões da qualidade
- Acurácia (Accuracy): O dado representa a realidade?
- Completude (Completeness): Faltam dados essenciais?
- Consistência (Consistency): O dado é o mesmo em sistemas diferentes?
- Integridade (Validity): Segue o formato correto (ex: CPF com 11 dígitos)?
- Tempestividade (Timeliness): O dado está disponível quando necessário?
- Unicidade (Uniqueness): Existem registros duplicados?
Conceitos importantes
Dicionário de dados: Foco técnico, envolve desenvolvedores e DBA. Exemplo: Tipo de campo, tamanho, chaves.
Glossário de negócios: Foco semântico, envolve usuários de negócios. Exemplo: Definição de termos como cliente ativo, faturamento bruto etc.
Catálogo de dados: Foco em descoberta, envolve analistas e cientistas. Exemplo: Onde está o dado, quem é o dono e quem pode acessá-lo.
Metadados: Dados sobre dados.
Data lineage: Mostra o caminho do dado desde a sua origem (source), passando pelas transformações (ETL), até o destino (dashboards/relatórios).
Dados abertos e transparência
Priorização de formatos não proprietários
Três Leis dos Dados Abertos:
1. Se o dado não pode ser encontrado e indexado, ele não existe.
2. Se não estiver em formato aberto e legível por máquina, não pode ser reaproveitado.
3. Se algum dispositivo legal impede o seu reuso, ele não é aberto.
Modelo de 5 estrelas:
⭐ 1 estrela
Dados disponíveis na web, com licença aberta, mas em qualquer formato (até PDF ou imagem).
→ Exemplo: tabela em PDF.
⭐⭐ 2 estrelas
Dados estruturados, mas em formato proprietário.
→ Exemplo: planilha no Excel (.xls).
⭐⭐⭐ 3 estrelas
Dados estruturados em formato aberto (não proprietário).
→ Exemplo: CSV.
⭐⭐⭐⭐ 4 estrelas
Dados usam identificadores únicos (URI) para permitir referência e integração.
→ Já começam a se conectar com outros dados.
⭐⭐⭐⭐⭐ 5 estrelas
Dados interligados (Linked Data), conectados a outras fontes.
→ Criam uma rede de dados contextualizada e reutilizável.
Padrões e boas práticas
DAMA-DMBOK: O framework de governança de dados
ISO 8000: A norma internacional para qualidade de dados.