Overview
Dados em Aprendizado de Máquina
Todo aprendizado de máquina é fundamentalmente um problema de dados. Independentemente de quão sofisticada seja a arquitetura do modelo, ela não pode compensar dados mal coletados, incorretamente rotulados ou impropriamente divididos. Compreender os dados — seus tipos, distribuições, qualidade e armadilhas — é o primeiro e mais crítico passo em qualquer projeto de AM.
"Lixo entra, lixo sai." — Máxima clássica do AM
Esta seção está organizada em seis tópicos focados:
O Pipeline de Dados
Antes de alimentar dados a qualquer modelo, eles passam por uma série de transformações. Compreender o pipeline completo ajuda a evitar bugs e vazamentos:
flowchart LR
A["Coleta de\nDados Brutos"] --> B["Análise\nExploratória"]
B --> C["Limpeza de Dados\n(problemas de qualidade)"]
C --> D["Divisão\ntreino / val / teste"]
D --> E["Engenharia de Features\ne Pré-processamento"]
E --> F["Treinamento\ndo Modelo"]
F --> G["Avaliação\nno conjunto de teste"]
style D fill:#1f3244,stroke:#58a6ff
style G fill:#1f3d1f,stroke:#3fb950 Regra Crítica
Sempre divida ANTES do pré-processamento. Calcular estatísticas (média, desvio padrão, mínimo, máximo) no dataset completo e depois dividir é vazamento de dados. Ajuste todos os transformadores apenas nos dados de treinamento.
Principais Repositórios de Dados
| Fonte | Domínio | Formato |
|---|---|---|
| UCI ML Repository | AM geral | CSV, ARFF |
| Kaggle Datasets | Todos os domínios | CSV, JSON |
| Hugging Face Datasets | PLN, Visão | Arrow, Parquet |
| OpenML | Benchmarks | ARFF |
| TensorFlow Datasets | Visão, PLN, Áudio | TFRecord |
| Papers With Code | Benchmarks de pesquisa | Vários |
| Google Dataset Search | Web | Vários |