Ir para o conteúdo

9.3. Generative

Métricas para IA Generativa

Modelos de IA Generativa, como os de texto (ex: série GPT), imagens (ex: DALL-E) ou áudio, são avaliados usando uma mistura de métricas quantitativas automatizadas e avaliações qualitativas humanas. Essas métricas avaliam aspectos como qualidade, coerência, diversidade, fidelidade às entradas e considerações éticas.


1. Geração de Texto e Modelagem de Linguagem

Métrica Descrição Principais Casos de Uso
Perplexidade Mede quão bem um modelo de probabilidade prevê uma amostra; menor = melhor fluência e coerência Modelagem de linguagem, previsão da próxima palavra
BLEU Overlap de precisão de n-gramas com referência(s); penaliza saídas curtas Tradução automática, diálogo, geração de texto
ROUGE Overlap de n-gramas/LCS orientado ao recall Sumarização, geração de títulos
METEOR Alinha unigramas com sinônimos, stemming e ordem de palavras Tradução, paráfrase
BERTScore Similaridade cosseno de embeddings BERT (semântica) Qualquer texto: fidelidade, QA, sumarização
Self-BLEU / n-gramas únicos Mede diversidade tratando uma saída como "referência" para as outras Geração de histórias, chat aberto

2. Geração de Imagens e Visual

Métrica Descrição Principais Casos de Uso
FID (Distância de Fréchet Inception) Compara distribuições de features de imagens reais vs. geradas GANs, modelos de difusão (ex: Stable Diffusion)
Inception Score (IS) Qualidade + diversidade via confiança e entropia do classificador Avaliação de GANs (legado; menos usado hoje)
Precisão e Recall para Distribuições Mede separadamente realismo (precisão) e cobertura (recall) Síntese de imagens de alta resolução
CLIP Score Similaridade cosseno entre embeddings de imagem e prompt de texto Alinhamento texto-para-imagem (DALL·E, Midjourney)

3. Tarefas Multimodais e Cruzadas

Métrica Descrição Principais Casos de Uso
CLIP Score / T5 Score Alinhamento semântico texto-imagem ou texto-texto Legenda de imagem, QA visual, recuperação
R@K (Recall em K) Acurácia de recuperação no espaço de embedding conjunto Recuperação imagem-texto
Preferência Humana (Elo, A/B) Julgamentos humanos por pares Texto-para-imagem, vídeo, música

4. Segurança, Ética e Equidade

Métrica Descrição Principais Casos de Uso
Pontuação de Toxicidade (Perspective API, RealToxicityPrompts) Probabilidade de conteúdo prejudicial Chatbots, geração de conteúdo
Métricas de Viés (WEAT, CrowS-Pairs, Bias-in-Bios) Mede estereótipos em embeddings ou saídas Equidade em contratação, viés de gênero/raça
Pontuações de Respeito / Honestidade Avalia respeitabilidade ou veracidade Sistemas de diálogo, factualidade

5. Avaliação Geral / Centrada no Humano

Métrica Descrição Principais Casos de Uso
Avaliação Humana (Likert, Ranking, Fluência/Coerência) Avaliações crowdsourced em múltiplos eixos Todos os domínios – padrão ouro
LLM-como-Juiz (GPT-4 Eval, Reward Models) Usa LLM poderoso para pontuar saídas vs. referências Alternativa escalável à avaliação humana
HELM / BIG-bench / Sondas estilo MMLU Suítes de benchmark holísticas Avaliação geral de capacidade

Referência Rápida por Tarefa

Tarefa Métricas Recomendadas
Tradução Automática BLEU, METEOR, BERTScore, chrF
Sumarização ROUGE, BERTScore, Factualidade (ex: QAGS)
Texto-para-Imagem FID, CLIP Score, preferência humana
Diálogo / Chat Perplexidade, Diversidade, Toxicidade, avaliação humana
Escrita Criativa Self-BLEU, MAUVE, pontuação de criatividade humana