Proximal Policy Optimization (PPO)
Segue material utilizado na parte expositiva da aula sobre o algoritmo PPO:
Proposta de atividade prática
Continuar com a implementação da APS, cujo o enunciado esta disponível aqui, utilizando o algoritmo PPO para treinar o agente.
Referências
Para a produção deste material foram utilizadas as seguintes referências:
-
The 37 Implementation Details of Proximal Policy Optimization. Disponível https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/. Último acesso em maio de 2023.
-
Schulman J, Levine S, Abbeel P, Jordan M, Moritz P. Trust region policy optimization. In International conference on machine learning 2015 Jun 1 (pp. 1889-1897). PMLR.v https://doi.org/10.48550/arXiv.1502.05477
-
Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. 2017 Jul 20.
-
Understanding Proximal Policy Optimization (Schulman et al., 2017). Disponível https://blog.tylertaewook.com/post/proximal-policy-optimization. Último acesso em maio de 2023.
-
Simonini, T. Proximal Policy Optimization (PPO). Unit 8, of the Deep Reinforcement Learning Class with Hugging Face. Disponível em https://huggingface.co/blog/deep-rl-ppo. Último acesso em maio de 2023.