Pular para o conteúdo
O Complemento de Dois
  • Concursos
  • Calculadora
  • Estudos
  • Discord
  • Publicações
Home / Big data / CRISP-DM

CRISP-DM

CRISP-DM (Cross-Industry Standard Process for Data Mining)

1. Entendimento do Negócio (Business Understanding)

  • Objetivo: Compreender os objetivos do negócio e traduzi-los em objetivos analíticos.
  • Principais tarefas:
    • Definir os requisitos do projeto.
    • Identificar problemas e oportunidades.
    • Estabelecer metas e critérios de sucesso.

2. Entendimento dos Dados (Data Understanding)

  • Objetivo: Coletar e explorar os dados disponíveis para identificar sua qualidade e relevância.
  • Principais tarefas:
    • Coletar dados de fontes disponíveis.
    • Descrever a estrutura e o conteúdo dos dados.
    • Verificar qualidade (valores faltantes, outliers, etc.).
    • Realizar análises exploratórias (EDA).

3. Preparação dos Dados (Data Preparation)

  • Objetivo: Transformar os dados brutos em um formato adequado para modelagem.
  • Principais tarefas:
    • Limpeza de dados (tratar missing values, ruídos, etc.).
    • Transformação (normalização, codificação de variáveis categóricas).
    • Integração de fontes (joins, agregações).
    • Seleção de atributos relevantes.

4. Modelagem (Modeling)

  • Objetivo: Criar modelos preditivos ou descritivos com base nos dados preparados.
  • Principais tarefas:
    • Selecionar técnicas de modelagem (regressão, classificação, clustering, etc.).
    • Treinar e ajustar os modelos (hyperparameter tuning).
    • Validar os modelos (métricas de desempenho como acurácia, RMSE, etc.).

5. Avaliação (Evaluation)

  • Objetivo: Verificar se os modelos atendem aos objetivos do negócio.
  • Principais tarefas:
    • Analisar resultados em relação aos critérios de sucesso.
    • Comparar modelos e selecionar o melhor.
    • Revisar se há necessidade de voltar a etapas anteriores.

6. Implantação (Deployment)

  • Objetivo: Disponibilizar o modelo para uso no ambiente operacional.
  • Principais tarefas:
    • Implementar o modelo em produção (APIs, dashboards, relatórios).
    • Monitorar desempenho ao longo do tempo.
      • Documentar o processo para futuras manutenções.

Técnicas de preparação de dados

Dados estruturados

Normalmente organizados em linhas e colunas (ex: planilhas, bancos de dados relacionais).

1. Limpeza de Dados

  • Remoção de duplicatas
  • Tratamento de valores ausentes (ex: imputação média/mediana/moda)
  • Correção de inconsistências e erros tipográficos

2. Transformação de Variáveis

  • Normalização (Min-Max)
  • Padronização (Z-score)
  • Binarização (ex: 0/1 para variáveis booleanas)
  • Encoding de variáveis categóricas (One-hot, Label encoding)

One-hot: não tem ordem
Label encoding: tem ordem
One-hot: dados categóricos em binário
Binarização: dados contínuos em binário

3. Redução de Dimensionalidade

  • PCA (Análise de Componentes Principais) – Não supervisionado
  • LDA (Análise Discriminante Linear) – Supervisionado
  • Seleção de atributos (ex: Recursive Feature Elimination)

PCA: Busca a máxima variância, não tem limites de classes, sensível a outliers.
LDA: Busca a máxima separabilidade, possui limites de classes, assume distribuição normal.

4. Detecção e Tratamento de Outliers

  • Métodos estatísticos (z-score, IQR, winsorization)
    • z-score: quanto um ponto desvia da média, sensível a outlier;
    • IQR: foca nos 50% dos pontos centrais, baixa sensibilidade;
    • Winsorization: trata os outliers, não perde linhas, mas muda influência;
  • Modelos baseados em vizinhança (ex: k-NN)

5. Balanceamento de Classes (em classificações desbalanceadas)

  • Oversampling (SMOTE)
  • Undersampling
  • Técnicas híbridas

6. Engenharia de Atributos

  • Criação de novas variáveis com base em regras ou combinações

Dados não estruturados

Incluem textos, imagens, vídeos, áudios. Requerem etapas específicas de extração e transformação.

📄 Texto (NLP)

  • Tokenização (dividir texto em palavras ou frases)
  • Remoção de stopwords (ex: “o”, “de”, “e”)
  • Stemming (redução para raiz: “correndo” → “corr”)
  • Lemmatização (redução para forma base: “correndo” → “correr”)
  • Vetorização (ex: TF-IDF, Word2Vec, BERT)
  • Lowercasing, remoção de pontuação e símbolos

🖼️ Imagens

  • Redimensionamento e normalização de pixels
  • Aumento de dados (data augmentation: rotação, corte, inversão)
  • Conversão para escala de cinza ou RGB
  • Extração de características (ex: SIFT, HOG, CNNs)

🔊 Áudio

  • Extração de espectrogramas
  • MFCCs (Mel Frequency Cepstral Coefficients)
  • Remoção de ruídos
  • Normalização do volume
  • Segmentação de fala

🎞️ Vídeo

  • Extração de frames
  • Conversão para sequência de imagens
  • Extração de características por frame ou por ação (ex: CNN + RNN)
Categorias: Big data
Tags: crisp, data, mining
Publicado em: 20/03/2026 07:37 e Atualizado em: 03/04/2026 12:00

Compartilhe este post:

Facebook Twitter LinkedIn WhatsApp

Navegação de Post

Post anterior: Machine learning
Próximo post: Modelagem multidimensional

Posts Recentes

  • GoF
    Padrões de Projeto GoF1 de junho de 2026
  • POO
    Programação Orientada a Objetos (POO)1 de junho de 2026
  • CMMI-20
    CMMI-DEV v2.031 de maio de 2026
  • RUP
    RUP (Rational Unified Process)31 de maio de 2026
  • scrum
    Scrum31 de maio de 2026
  • Política de privacidade

2026. O Complemento de Dois. Todos os direitos reservados.