Ir para o conteúdo

Overview

Dados em Aprendizado de Máquina

Todo aprendizado de máquina é fundamentalmente um problema de dados. Independentemente de quão sofisticada seja a arquitetura do modelo, ela não pode compensar dados mal coletados, incorretamente rotulados ou impropriamente divididos. Compreender os dados — seus tipos, distribuições, qualidade e armadilhas — é o primeiro e mais crítico passo em qualquer projeto de AM.

"Lixo entra, lixo sai." — Máxima clássica do AM

Esta seção está organizada em seis tópicos focados:

📊 Tipos de Features
Numéricas, categóricas, ordinais, binárias, texto, imagem, séries temporais. Como o tipo de dado orienta as escolhas de modelagem.
📈 Distribuições e Visualização
Gaussiana, uniforme, multimodal e datasets reais (Iris, Salmão/Robalo). Como explorar e visualizar dados.
✂️ Divisão Treino / Val / Teste
Por que a divisão em três conjuntos importa, validação cruzada, divisões estratificadas e a regra de ouro do conjunto de teste.
🚨 Vazamento de Dados
O destruidor silencioso de modelos. Vazamento de alvo, vazamento temporal, contaminação treino-teste e como detectá-los.
🧹 Qualidade dos Dados
Valores faltantes (MCAR/MAR/MNAR), outliers, duplicatas, ruído. Estratégias de limpeza e imputação.
⚖️ Desbalanceamento de Classes
Quando uma classe domina. Oversampling (SMOTE), undersampling, pesos de classe e avaliação adequada.

O Pipeline de Dados

Antes de alimentar dados a qualquer modelo, eles passam por uma série de transformações. Compreender o pipeline completo ajuda a evitar bugs e vazamentos:

flowchart LR
    A["Coleta de\nDados Brutos"] --> B["Análise\nExploratória"]
    B --> C["Limpeza de Dados\n(problemas de qualidade)"]
    C --> D["Divisão\ntreino / val / teste"]
    D --> E["Engenharia de Features\ne Pré-processamento"]
    E --> F["Treinamento\ndo Modelo"]
    F --> G["Avaliação\nno conjunto de teste"]

    style D fill:#1f3244,stroke:#58a6ff
    style G fill:#1f3d1f,stroke:#3fb950

Regra Crítica

Sempre divida ANTES do pré-processamento. Calcular estatísticas (média, desvio padrão, mínimo, máximo) no dataset completo e depois dividir é vazamento de dados. Ajuste todos os transformadores apenas nos dados de treinamento.


Principais Repositórios de Dados

Fonte Domínio Formato
UCI ML Repository AM geral CSV, ARFF
Kaggle Datasets Todos os domínios CSV, JSON
Hugging Face Datasets PLN, Visão Arrow, Parquet
OpenML Benchmarks ARFF
TensorFlow Datasets Visão, PLN, Áudio TFRecord
Papers With Code Benchmarks de pesquisa Vários
Google Dataset Search Web Vários