9.3. Generative

Métricas para IA Generativa

Modelos de IA Generativa, como os de texto (ex: série GPT), imagens (ex: DALL-E) ou áudio, são avaliados usando uma mistura de métricas quantitativas automatizadas e avaliações qualitativas humanas. Essas métricas avaliam aspectos como qualidade, coerência, diversidade, fidelidade às entradas e considerações éticas.

1. Geração de Texto e Modelagem de Linguagem

Métrica	Descrição	Principais Casos de Uso
Perplexidade	Mede quão bem um modelo de probabilidade prevê uma amostra; menor = melhor fluência e coerência	Modelagem de linguagem, previsão da próxima palavra
BLEU	Overlap de precisão de n-gramas com referência(s); penaliza saídas curtas	Tradução automática, diálogo, geração de texto
ROUGE	Overlap de n-gramas/LCS orientado ao recall	Sumarização, geração de títulos
METEOR	Alinha unigramas com sinônimos, stemming e ordem de palavras	Tradução, paráfrase
BERTScore	Similaridade cosseno de embeddings BERT (semântica)	Qualquer texto: fidelidade, QA, sumarização
Self-BLEU / n-gramas únicos	Mede diversidade tratando uma saída como "referência" para as outras	Geração de histórias, chat aberto

2. Geração de Imagens e Visual

Métrica	Descrição	Principais Casos de Uso
FID (Distância de Fréchet Inception)	Compara distribuições de features de imagens reais vs. geradas	GANs, modelos de difusão (ex: Stable Diffusion)
Inception Score (IS)	Qualidade + diversidade via confiança e entropia do classificador	Avaliação de GANs (legado; menos usado hoje)
Precisão e Recall para Distribuições	Mede separadamente realismo (precisão) e cobertura (recall)	Síntese de imagens de alta resolução
CLIP Score	Similaridade cosseno entre embeddings de imagem e prompt de texto	Alinhamento texto-para-imagem (DALL·E, Midjourney)

3. Tarefas Multimodais e Cruzadas

Métrica	Descrição	Principais Casos de Uso
CLIP Score / T5 Score	Alinhamento semântico texto-imagem ou texto-texto	Legenda de imagem, QA visual, recuperação
R@K (Recall em K)	Acurácia de recuperação no espaço de embedding conjunto	Recuperação imagem-texto
Preferência Humana (Elo, A/B)	Julgamentos humanos por pares	Texto-para-imagem, vídeo, música

4. Segurança, Ética e Equidade

Métrica	Descrição	Principais Casos de Uso
Pontuação de Toxicidade (Perspective API, RealToxicityPrompts)	Probabilidade de conteúdo prejudicial	Chatbots, geração de conteúdo
Métricas de Viés (WEAT, CrowS-Pairs, Bias-in-Bios)	Mede estereótipos em embeddings ou saídas	Equidade em contratação, viés de gênero/raça
Pontuações de Respeito / Honestidade	Avalia respeitabilidade ou veracidade	Sistemas de diálogo, factualidade

5. Avaliação Geral / Centrada no Humano

Métrica	Descrição	Principais Casos de Uso
Avaliação Humana (Likert, Ranking, Fluência/Coerência)	Avaliações crowdsourced em múltiplos eixos	Todos os domínios – padrão ouro
LLM-como-Juiz (GPT-4 Eval, Reward Models)	Usa LLM poderoso para pontuar saídas vs. referências	Alternativa escalável à avaliação humana
HELM / BIG-bench / Sondas estilo MMLU	Suítes de benchmark holísticas	Avaliação geral de capacidade

Referência Rápida por Tarefa

Tarefa	Métricas Recomendadas
Tradução Automática	BLEU, METEOR, BERTScore, chrF
Sumarização	ROUGE, BERTScore, Factualidade (ex: QAGS)
Texto-para-Imagem	FID, CLIP Score, preferência humana
Diálogo / Chat	Perplexidade, Diversidade, Toxicidade, avaliação humana
Escrita Criativa	Self-BLEU, MAUVE, pontuação de criatividade humana