Skip to content

Comentários sobre as entregas referentes ao ambiente Frozen Lake.

Seguem exemplos de resultados bem apresentados.

Um exemplo de resultado onde o agente aprendeu a tarefa

Um exemplo de resultado onde o agente não aprendeu a tarefa

Alguns hiperparâmetros utilizados e com bons resultados

Algoritmo alpha (α) gamma (γ) epsilon (ε) epsilon min epsilon dec episódios Tamanho Resultado (%)
QLearning (Melhor) 0.07 0.98 0.98 0.0001 0.9996 20_000 4x4 0.866
QLearning (Segunda Melhor) 0.03 0.98 0.98 0.0001 0.9996 20_000 4x4 0.858
SARSA (Melhor) 0.03 0.98 0.98 0.0001 0.9996 20_000 4x4 0.814
SARSA (Segunda Melhor) 0.05 0.95 0.95 0.0001 0.9996 20_000 4x4 0.808

Estes valores foram obtidos pelos alunos Ricardo Rodrigues e Pedro Henrique no 1o semestre de 2024.


Last update: May 2, 2024