Overview

Dados em Aprendizado de Máquina

Todo aprendizado de máquina é fundamentalmente um problema de dados. Independentemente de quão sofisticada seja a arquitetura do modelo, ela não pode compensar dados mal coletados, incorretamente rotulados ou impropriamente divididos. Compreender os dados — seus tipos, distribuições, qualidade e armadilhas — é o primeiro e mais crítico passo em qualquer projeto de AM.

"Lixo entra, lixo sai." — Máxima clássica do AM

Esta seção está organizada em seis tópicos focados:

📊 Tipos de Features

Numéricas, categóricas, ordinais, binárias, texto, imagem, séries temporais. Como o tipo de dado orienta as escolhas de modelagem.

📈 Distribuições e Visualização

Gaussiana, uniforme, multimodal e datasets reais (Iris, Salmão/Robalo). Como explorar e visualizar dados.

✂️ Divisão Treino / Val / Teste

Por que a divisão em três conjuntos importa, validação cruzada, divisões estratificadas e a regra de ouro do conjunto de teste.

🚨 Vazamento de Dados

O destruidor silencioso de modelos. Vazamento de alvo, vazamento temporal, contaminação treino-teste e como detectá-los.

🧹 Qualidade dos Dados

Valores faltantes (MCAR/MAR/MNAR), outliers, duplicatas, ruído. Estratégias de limpeza e imputação.

⚖️ Desbalanceamento de Classes

Quando uma classe domina. Oversampling (SMOTE), undersampling, pesos de classe e avaliação adequada.

O Pipeline de Dados

Antes de alimentar dados a qualquer modelo, eles passam por uma série de transformações. Compreender o pipeline completo ajuda a evitar bugs e vazamentos:

flowchart LR
    A["Coleta de\nDados Brutos"] --> B["Análise\nExploratória"]
    B --> C["Limpeza de Dados\n(problemas de qualidade)"]
    C --> D["Divisão\ntreino / val / teste"]
    D --> E["Engenharia de Features\ne Pré-processamento"]
    E --> F["Treinamento\ndo Modelo"]
    F --> G["Avaliação\nno conjunto de teste"]

    style D fill:#1f3244,stroke:#58a6ff
    style G fill:#1f3d1f,stroke:#3fb950

Regra Crítica

Sempre divida ANTES do pré-processamento. Calcular estatísticas (média, desvio padrão, mínimo, máximo) no dataset completo e depois dividir é vazamento de dados. Ajuste todos os transformadores apenas nos dados de treinamento.

Principais Repositórios de Dados

Fonte	Domínio	Formato
UCI ML Repository	AM geral	CSV, ARFF
Kaggle Datasets	Todos os domínios	CSV, JSON
Hugging Face Datasets	PLN, Visão	Arrow, Parquet
OpenML	Benchmarks	ARFF
TensorFlow Datasets	Visão, PLN, Áudio	TFRecord
Papers With Code	Benchmarks de pesquisa	Vários
Google Dataset Search	Web	Vários