Algoritmo Reinforce
O objetivo deste grupo de aulas é explorar uma categoria de algoritmos de Reinforcement Learning baseados em policy optimization.
Esta aula está dividida em duas etapas:
- uma parte expositiva que irá utilizar o conjunto de slides abaixo, e;
- uma atividade onde o objetivo é implementar o algoritmo Reinforce ou uma versão do Vanilla Policy Gradient.
Para tanto, será utilizado este conjunto de slides para uma aula expositiva inicial:
Implementação em sala de aula
-
Implemente uma versão do algoritmo Reinforce com base no pseudo-código deste material e com base nos trechos de códigos disponibilizados.
-
Não esqueça de coletar os dados para avaliar a curva de aprendizagem do agente.
-
Também não esqueça de salvar o modelo para depois executar N vezes sem precisar re-treinar o agente.
-
Utilize os ambientes
CartPole-v1
eLunarLander-v2
para testar o algoritmo.
Last update:
April 8, 2024