Machine learning - O Complemento de Dois

A Hierarquia dos Conceitos

Inteligência Artificial (IA): O campo amplo que busca criar sistemas capazes de realizar tarefas que exigiriam inteligência humana.

Machine Learning (ML): Um subcampo da IA que foca em algoritmos que “aprendem” padrões a partir de dados, sem serem explicitamente programados para cada regra.

Deep Learning (DL): Um subcampo do ML que utiliza Redes Neurais Artificiais multicamadas (profundas) para processar dados complexos (como imagens e voz).

Tipos de aprendizados

Supervisionado: Dados com rótulos

Não supervisionado: Dados sem rótulos

Reforço: Resultados geram recompensas ou punições

Aprendizado supervisionado

Regressão

Regressão Linear: Relação linear entre variáveis independentes e a variável alvo contínua.

Regressão Logística: Classificação binária, mas pode dar probabilidades contínuas.

Árvores de Decisão: Particiona o espaço em regiões e atribui um valor constante em cada folha.

Random Forest: Conjunto de árvores de decisão que reduz overfitting via bootstrap e agregação.

Gradient Boosting (XGBoost, LightGBM, CatBoost): Combina árvores fracas sequencialmente corrigindo erros do modelo anterior.

Classificação

K‑Nearest Neighbors (K‑NN): Classifica baseado nos rótulos dos K vizinhos mais próximos no espaço de features.
Support Vector Machine (SVM): Encontra o hiperplano que maximiza a margem entre classes; usa kernels para dados não lineares.
Árvores de Decisão: Estrutura hierárquica com divisões baseadas em impureza (Gini, entropia).
Random Forest: Conjunto de árvores com votação majoritária; robusto e difícil de overfit.
Gradient Boosting: Mesma ideia da regressão, mas com função de perda apropriada (log‑loss).
Naive Bayes: Baseado no teorema de Bayes com forte premissa de independência entre features; eficiente para textos.
Redes Neurais (Perceptron multicamadas): Modelos flexíveis capazes de aprender relações complexas; base do deep learning.

Aprendizado não supervisionado

Clusterização (Agrupamento)

K-Means: Particiona os dados em K grupos (clusters) com base na distância aos centróides. É rápido e escalável, mas assume clusters esféricos e de tamanho similar.

K-Medoids: Similar ao K-Means, mas usa pontos reais como centróides (medoides), sendo mais robusto a outliers.

DBSCAN: Agrupa pontos com base na densidade. Não exige número de clusters pré-definido e consegue identificar outliers (ruído). Bom para formas arbitrárias.

Hierarchical Clustering (Aglomerativo/Divisivo): Constrói uma árvore de clusters (dendrograma). Permite cortar em diferentes níveis para obter granularidades variadas.

Mean Shift: Desliza janelas em direção às regiões de maior densidade. Não exige K, mas pode ser caro computacionalmente.

Gaussian Mixture Models (GMM): Modela os clusters como distribuições normais. Permite clusters elípticos e associa probabilidades de pertencimento (soft clustering).

Redução de Dimensionalidade

PCA (Principal Component Analysis): Projeta os dados em componentes principais que maximizam a variância. Usado para visualização, compressão e remoção de ruído.

t-SNE: Reduz dimensões preservando similaridades locais. Excelente para visualização de dados de alta dimensão em 2D/3D, mas não é recomendado para pipelines de modelagem.

UMAP: Mais rápido que t-SNE e preserva tanto estruturas locais quanto globais. Bom para visualização e como pré-processamento.

Autoencoders (deep learning): Redes neurais que aprendem representações comprimidas (latentes) por meio de codificação e decodificação.

Regras de Associação

Apriori: Encontra conjuntos de itens frequentes e gera regras do tipo “se X então Y”. Muito usado em análise de cestas de compras (market basket analysis).

FP-Growth: Versão mais eficiente que o Apriori, pois evita a geração excessiva de candidatos, usando uma estrutura de árvore (FP-tree).

Anomalia/Outlier Detection

Isolation Forest: Isola anomalias em vez de perfilar pontos normais. Eficiente e escalável.

One-Class SVM: Aprende uma fronteira que contém a maioria dos dados normais; detecta pontos fora dela.

Compartilhe este post: