Data pipeline

Fluxo de dados
- Ingestão:
API, banco de dados, logs, arquivos - Transformação:
Limpeza e tratamento - Armazenamento:
Data Warehouse, Data Lake - Análise:
BI, ML
ETL x ELT
- ETL (Extract, Transform, Load): O dado é transformado antes de chegar ao destino.
- ELT (Extract, Load, Transform): O dado é carregado bruto no destino e a transformação ocorre dentro do banco.
Batch x Streaming
- Batch (Processamento em Lote): Os dados são coletados e processados em intervalos definidos.
- Streaming (Real-time): O dado é processado no instante em que é gerado.
Importante
Staging area: local temporário
Storage area: local permanente