CRISP-DM
CRISP-DM (Cross-Industry Standard Process for Data Mining)
1. Entendimento do Negócio (Business Understanding)
- Objetivo: Compreender os objetivos do negócio e traduzi-los em objetivos analíticos.
- Principais tarefas:
- Definir os requisitos do projeto.
- Identificar problemas e oportunidades.
- Estabelecer metas e critérios de sucesso.
2. Entendimento dos Dados (Data Understanding)
- Objetivo: Coletar e explorar os dados disponíveis para identificar sua qualidade e relevância.
- Principais tarefas:
- Coletar dados de fontes disponíveis.
- Descrever a estrutura e o conteúdo dos dados.
- Verificar qualidade (valores faltantes, outliers, etc.).
- Realizar análises exploratórias (EDA).
3. Preparação dos Dados (Data Preparation)
- Objetivo: Transformar os dados brutos em um formato adequado para modelagem.
- Principais tarefas:
- Limpeza de dados (tratar missing values, ruídos, etc.).
- Transformação (normalização, codificação de variáveis categóricas).
- Integração de fontes (joins, agregações).
- Seleção de atributos relevantes.
4. Modelagem (Modeling)
- Objetivo: Criar modelos preditivos ou descritivos com base nos dados preparados.
- Principais tarefas:
- Selecionar técnicas de modelagem (regressão, classificação, clustering, etc.).
- Treinar e ajustar os modelos (hyperparameter tuning).
- Validar os modelos (métricas de desempenho como acurácia, RMSE, etc.).
5. Avaliação (Evaluation)
- Objetivo: Verificar se os modelos atendem aos objetivos do negócio.
- Principais tarefas:
- Analisar resultados em relação aos critérios de sucesso.
- Comparar modelos e selecionar o melhor.
- Revisar se há necessidade de voltar a etapas anteriores.
6. Implantação (Deployment)
- Objetivo: Disponibilizar o modelo para uso no ambiente operacional.
- Principais tarefas:
- Implementar o modelo em produção (APIs, dashboards, relatórios).
- Monitorar desempenho ao longo do tempo.
- Documentar o processo para futuras manutenções.
Técnicas de preparação de dados
Dados estruturados
Normalmente organizados em linhas e colunas (ex: planilhas, bancos de dados relacionais).
1. Limpeza de Dados
- Remoção de duplicatas
- Tratamento de valores ausentes (ex: imputação média/mediana/moda)
- Correção de inconsistências e erros tipográficos
2. Transformação de Variáveis
- Normalização (Min-Max)
- Padronização (Z-score)
- Binarização (ex: 0/1 para variáveis booleanas)
- Encoding de variáveis categóricas (One-hot, Label encoding)
One-hot: não tem ordem
Label encoding: tem ordem
One-hot: dados categóricos em binário
Binarização: dados contínuos em binário
3. Redução de Dimensionalidade
- PCA (Análise de Componentes Principais) – Não supervisionado
- LDA (Análise Discriminante Linear) – Supervisionado
- Seleção de atributos (ex: Recursive Feature Elimination)
PCA: Busca a máxima variância, não tem limites de classes, sensível a outliers.
LDA: Busca a máxima separabilidade, possui limites de classes, assume distribuição normal.
4. Detecção e Tratamento de Outliers
- Métodos estatísticos (z-score, IQR, winsorization)
- z-score: quanto um ponto desvia da média, sensível a outlier;
- IQR: foca nos 50% dos pontos centrais, baixa sensibilidade;
- Winsorization: trata os outliers, não perde linhas, mas muda influência;
- Modelos baseados em vizinhança (ex: k-NN)
5. Balanceamento de Classes (em classificações desbalanceadas)
- Oversampling (SMOTE)
- Undersampling
- Técnicas híbridas
6. Engenharia de Atributos
- Criação de novas variáveis com base em regras ou combinações
Dados não estruturados
Incluem textos, imagens, vídeos, áudios. Requerem etapas específicas de extração e transformação.
📄 Texto (NLP)
- Tokenização (dividir texto em palavras ou frases)
- Remoção de stopwords (ex: “o”, “de”, “e”)
- Stemming (redução para raiz: “correndo” → “corr”)
- Lemmatização (redução para forma base: “correndo” → “correr”)
- Vetorização (ex: TF-IDF, Word2Vec, BERT)
- Lowercasing, remoção de pontuação e símbolos
🖼️ Imagens
- Redimensionamento e normalização de pixels
- Aumento de dados (data augmentation: rotação, corte, inversão)
- Conversão para escala de cinza ou RGB
- Extração de características (ex: SIFT, HOG, CNNs)
🔊 Áudio
- Extração de espectrogramas
- MFCCs (Mel Frequency Cepstral Coefficients)
- Remoção de ruídos
- Normalização do volume
- Segmentação de fala
🎞️ Vídeo
- Extração de frames
- Conversão para sequência de imagens
- Extração de características por frame ou por ação (ex: CNN + RNN)