9.1. Classification

Abaixo está uma lista detalhada de métricas comumente usadas para avaliar a acurácia e o desempenho de modelos de classificação e regressão em aprendizado de máquina, incluindo redes neurais. As métricas são categorizadas de acordo com sua aplicabilidade a tarefas de classificação ou regressão, com explicações e formulações matemáticas quando relevante.

Métricas de Classificação

Tarefas de classificação envolvem a previsão de rótulos de classe discretos. As seguintes métricas avaliam a acurácia e eficácia desses modelos:

Métrica	Propósito	Caso de Uso
Acurácia \( \displaystyle \frac{VP + VN}{VP + VN + FP + FN} \)	Mede a proporção de previsões corretas em todas as classes	Adequada para datasets balanceados, mas enganosa para desbalanceados
Precisão \( \displaystyle \frac{VP}{VP + FP} \)	Avalia a proporção de previsões positivas que estão corretas	Importante quando falsos positivos são custosos (ex: detecção de spam)
Recall (Sensibilidade) \( \displaystyle \frac{VP}{VP + FN} \)	Avalia a proporção de positivos reais corretamente identificados	Crítico quando falsos negativos são custosos (ex: detecção de doenças)
F1-Score \( \displaystyle 2 \cdot \frac{\text{Precisão} \cdot \text{Recall}}{\text{Precisão} + \text{Recall}} \)	Média harmônica de precisão e recall, equilibrando ambas as métricas	Útil para datasets desbalanceados onde precisão e recall importam
AUC-ROC Área sob a curva que plota a Taxa de Verdadeiro Positivo (Recall) vs. Taxa de Falso Positivo \( \displaystyle \left( \frac{FP}{FP + VN} \right) \)	Mede a capacidade do modelo de distinguir entre classes em todos os limiares	Eficaz para classificação binária e avaliação de robustez do modelo
AUC-PR Área sob a curva que plota Precisão vs. Recall	Foca no tradeoff precisão-recall, especialmente para datasets desbalanceados	Preferida quando a classe positiva é rara (ex: detecção de fraude)
Matriz de Confusão¹	Fornece um resumo tabular dos resultados de previsão (VP, VN, FP, FN)	Oferece insights detalhados sobre desempenho por classe, especialmente para problemas multiclasse
Hamming Loss \( \displaystyle \frac{1}{N} \sum_{i=1}^N \frac{1}{L} \sum_{j=1}^L \mathbf{1}(y_{ij} \neq \hat{y}_{ij}) \)	Calcula a fração de rótulos incorretos para o total de rótulos	Adequada para tarefas de classificação multi-rótulo
Acurácia Balanceada \( \displaystyle \frac{1}{C} \sum_{i=1}^C \frac{VP_i}{VP_i + FN_i} \)	Média do recall obtido em cada classe, útil para datasets desbalanceados	Eficaz para problemas multiclasse com desbalanceamento de classes

Funções de Perda

Funções de perda comumente usadas em tarefas de classificação:

Métrica	Propósito	Caso de Uso
Entropia Cruzada \( \displaystyle -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right] \)	Mede o desempenho de um modelo de classificação cuja saída é um valor de probabilidade entre 0 e 1	Comumente usada em tarefas de classificação com saídas probabilísticas
Entropia Cruzada Binária² \( \displaystyle -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right] \)	Usada para tarefas de classificação binária	Comum em problemas de classificação binária
Entropia Cruzada Categórica \( \displaystyle -\sum_{i=1}^{N} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c}) \)	Usada quando há duas ou mais classes de rótulo	Adequada para tarefas de classificação multiclasse com rótulos one-hot
Entropia Cruzada Categórica Esparsa \( \displaystyle -\sum_{i=1}^{N} \log(\hat{y}_{i,y_i}) \)	Semelhante à categórica, mas usada quando rótulos são inteiros	Útil para classificação multiclasse com rótulos inteiros
Divergência de Kullback-Leibler \( \displaystyle D_{KL}(P \\| Q) = \sum_{i} P(i) \log\left(\frac{P(i)}{Q(i)}\right) \)	Mede como uma distribuição de probabilidade diverge de uma segunda distribuição esperada	Útil em modelos probabilísticos e distribuições
Focal Loss² \( \displaystyle -\frac{1}{N} \sum_{i=1}^{N} \alpha_t (1 - p_t)^\gamma \log(p_t) \)	Versão modificada da entropia cruzada que aborda desbalanceamento de classes diminuindo o peso de exemplos fáceis	Benéfica em cenários com desbalanceamento de classes significativo

Adicional

Explicação da Curva ROC (AUC-ROC)

Uma curva ROC plota a Taxa de Verdadeiro Positivo (TVP, ou sensibilidade/recall) contra a Taxa de Falso Positivo (TFP) em vários limiares de classificação:

Taxa de Verdadeiro Positivo (TVP): A proporção de positivos reais corretamente identificados (VP / (VP + FN)).
Taxa de Falso Positivo (TFP): A proporção de negativos reais incorretamente classificados como positivos (FP / (FP + VN)).
A Área Sob a Curva (AUC) quantifica o desempenho geral, com AUC = 1 indicando um classificador perfeito e AUC = 0,5 indicando um classificador aleatório.