Skip to content

Algoritmo Reinforce

O objetivo deste grupo de aulas é explorar uma categoria de algoritmos de Reinforcement Learning baseados em policy optimization.

Esta aula está dividida em duas etapas:

  • uma parte expositiva que irá utilizar o conjunto de slides abaixo, e;
  • uma atividade onde o objetivo é implementar o algoritmo Reinforce ou uma versão do Vanilla Policy Gradient.

Para tanto, será utilizado este conjunto de slides para uma aula expositiva inicial:

Implementação em sala de aula

  • Implemente uma versão do algoritmo Reinforce com base no pseudo-código deste material e com base nos trechos de códigos disponibilizados.

  • Não esqueça de coletar os dados para avaliar a curva de aprendizagem do agente.

  • Também não esqueça de salvar o modelo para depois executar N vezes sem precisar re-treinar o agente.

  • Utilize os ambientes CartPole-v1 e LunarLander-v2 para testar o algoritmo.


Last update: April 8, 2024