CRISP-DM - O Complemento de Dois

CRISP-DM (Cross-Industry Standard Process for Data Mining)

1. Entendimento do Negócio (Business Understanding)

Objetivo: Compreender os objetivos do negócio e traduzi-los em objetivos analíticos.
Principais tarefas:
- Definir os requisitos do projeto.
- Identificar problemas e oportunidades.
- Estabelecer metas e critérios de sucesso.

2. Entendimento dos Dados (Data Understanding)

Objetivo: Coletar e explorar os dados disponíveis para identificar sua qualidade e relevância.
Principais tarefas:
- Coletar dados de fontes disponíveis.
- Descrever a estrutura e o conteúdo dos dados.
- Verificar qualidade (valores faltantes, outliers, etc.).
- Realizar análises exploratórias (EDA).

3. Preparação dos Dados (Data Preparation)

Objetivo: Transformar os dados brutos em um formato adequado para modelagem.
Principais tarefas:
- Limpeza de dados (tratar missing values, ruídos, etc.).
- Transformação (normalização, codificação de variáveis categóricas).
- Integração de fontes (joins, agregações).
- Seleção de atributos relevantes.

4. Modelagem (Modeling)

Objetivo: Criar modelos preditivos ou descritivos com base nos dados preparados.
Principais tarefas:
- Selecionar técnicas de modelagem (regressão, classificação, clustering, etc.).
- Treinar e ajustar os modelos (hyperparameter tuning).
- Validar os modelos (métricas de desempenho como acurácia, RMSE, etc.).

5. Avaliação (Evaluation)

Objetivo: Verificar se os modelos atendem aos objetivos do negócio.
Principais tarefas:
- Analisar resultados em relação aos critérios de sucesso.
- Comparar modelos e selecionar o melhor.
- Revisar se há necessidade de voltar a etapas anteriores.

6. Implantação (Deployment)

Objetivo: Disponibilizar o modelo para uso no ambiente operacional.
Principais tarefas:
- Implementar o modelo em produção (APIs, dashboards, relatórios).
- Monitorar desempenho ao longo do tempo.
  - Documentar o processo para futuras manutenções.

Técnicas de preparação de dados

Dados estruturados

Normalmente organizados em linhas e colunas (ex: planilhas, bancos de dados relacionais).

1. Limpeza de Dados

Remoção de duplicatas
Tratamento de valores ausentes (ex: imputação média/mediana/moda)
Correção de inconsistências e erros tipográficos

2. Transformação de Variáveis

Normalização (Min-Max)
Padronização (Z-score)
Binarização (ex: 0/1 para variáveis booleanas)
Encoding de variáveis categóricas (One-hot, Label encoding)

One-hot: não tem ordem
Label encoding: tem ordem
One-hot: dados categóricos em binário
Binarização: dados contínuos em binário

3. Redução de Dimensionalidade

PCA (Análise de Componentes Principais) – Não supervisionado
LDA (Análise Discriminante Linear) – Supervisionado
Seleção de atributos (ex: Recursive Feature Elimination)

PCA: Busca a máxima variância, não tem limites de classes, sensível a outliers.
LDA: Busca a máxima separabilidade, possui limites de classes, assume distribuição normal.

4. Detecção e Tratamento de Outliers

Métodos estatísticos (z-score, IQR, winsorization)
- z-score: quanto um ponto desvia da média, sensível a outlier;
- IQR: foca nos 50% dos pontos centrais, baixa sensibilidade;
- Winsorization: trata os outliers, não perde linhas, mas muda influência;
Modelos baseados em vizinhança (ex: k-NN)

5. Balanceamento de Classes (em classificações desbalanceadas)

Oversampling (SMOTE)
Undersampling
Técnicas híbridas

6. Engenharia de Atributos

Criação de novas variáveis com base em regras ou combinações

Dados não estruturados

Incluem textos, imagens, vídeos, áudios. Requerem etapas específicas de extração e transformação.

📄 Texto (NLP)

Tokenização (dividir texto em palavras ou frases)
Remoção de stopwords (ex: “o”, “de”, “e”)
Stemming (redução para raiz: “correndo” → “corr”)
Lemmatização (redução para forma base: “correndo” → “correr”)
Vetorização (ex: TF-IDF, Word2Vec, BERT)
Lowercasing, remoção de pontuação e símbolos

🖼️ Imagens

Redimensionamento e normalização de pixels
Aumento de dados (data augmentation: rotação, corte, inversão)
Conversão para escala de cinza ou RGB
Extração de características (ex: SIFT, HOG, CNNs)

🔊 Áudio

Extração de espectrogramas
MFCCs (Mel Frequency Cepstral Coefficients)
Remoção de ruídos
Normalização do volume
Segmentação de fala

🎞️ Vídeo

Extração de frames
Conversão para sequência de imagens
Extração de características por frame ou por ação (ex: CNN + RNN)