Skip to content
Aprendizagem por Reforço
Evolução do Reinforce ao PPO
Aprendizagem por Reforço
Home
Ementa
Plano
Avaliação
Aulas
Aulas
Introdução
Introdução
Apresentação da disciplina
Ferramentas e ambientes para aprendizagem por reforço
Q-Learning and Sarsa
Q-Learning and Sarsa
Algoritmo Q-Learning
Hiperparâmetros em Q-Learning
Alguns comentários sobre as entregas
Algoritmo SARSA: abordagem on-policy
Comentários sobre as implementações do Q-Learning e Sarsa
Ambientes e metodologias
Ambientes e metodologias
Como avaliar o desempenho de um agente?
Ambientes não-determinísticos
Comentários sobre as entregas referentes ao ambiente Frozen Lake.
Implementando um agente para lidar com um ambiente um pouco mais complexo
Criação de ambientes customizados
Deep Q-Learning
Deep Q-Learning
Deep Reinforcement Learning
Lunar Lander Project
Policy Optimization e Actor-Critic
Policy Optimization e Actor-Critic
Algoritmo Reinforce
A2C: Advantage Actor-Critic
Comentários sobre as últimas implementações
Proximal Policy Optimization (PPO)
Evolução do Reinforce ao PPO
Projetos
Projetos
Projeto intermediário
Projeto Final
Destaques
Destaques
Projetos desenvolvidos em 2025
Referências
Evolução do Reinforce ao PPO