Skip to content

Proximal Policy Optimization (PPO)

Na primeira parte da aula vamos utilizar o conjunto de slides abaixo para entender o algoritmo PPO:

Proposta de atividade prática

Utilize a implementação do algoritmo PPO existente em https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html para implementar diversos agentes para diferentes ambientes. Faça uma análise se a política encontrada é uma política ótima, se demorou muito para treinar o agente e se a curva de aprendizado do agente é estável.

Para aqueles que querem aprofundar ainda mais o seu conhecimento sobre o algoritmo PPO, proponho implementar o seu próprio algoritmo utilizando as referências citadas abaixo. Em especial este documento: https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/.

Referências

Para a produção deste material foram utilizadas as seguintes referências:


Last update: May 4, 2023