Skip to content

Aprendizagem por Reforço

Ementa

Aprendizagem por Reforço. Algoritmos de Aprendizagem por Reforço. Implementação de agentes autônomos usando aprendizagem por reforço.

Objetivos

Ao final da disciplina o estudante será capaz de:

  1. Construir um sistema baseado em aprendizagem por reforço para tomada de decisões sequenciais.
  2. Compreender como se deve formalizar uma tarefa considerando um problema de aprendizagem por reforço e como implementar uma solução.
  3. Compreender os tipos de algoritmos de aprendizagem por reforço: tabular, value-based, policy gradient e actor-critic.
  4. Compreender qual é a relação de aprendizagem por reforço com aprendizagem supervisionada e não-supervisionada. supervised learning.

Conteúdo Programático

  1. Introdução ao Aprendizado por Reforço.
  2. Implementação de agentes autônomos usando aprendizagem por reforço.
  3. Taxonomia dos algoritmos de aprendizagem por reforço.
  4. Temporal-Difference learning.
  5. Algoritmo Q-Learning.
  6. Algoritmo Sarsa.
  7. Deep Reinforcement Learning.
  8. Algoritmos do tipo Deep Q-Learning.
  9. Reinforce: um algoritmo de Policy Gradient.
  10. Algoritmos do tipo Actor-Critic.
  11. Implementações de agentes autônomos usando projetos, tais como, Gymnasium da Farama e a biblioteca para reinforcement learning do Kaggle.
  12. Exemplos de soluções usando aprendizagem por reforço.

Bibliografia Básica

  1. GÉRON, A. Hands-on Machine Learning with Scikit-learn, Keras, and TensorFlow, 2ª ed., O'Reilly, 2021.
  2. SUTTON, R.; BARTO, A. Reinforcement Learning: An Introduction. Second Edition. The MIT Press, 2018.
  3. Van Hasselt, H., Guez, A. and Silver, D., 2016, March. Deep reinforcement learning with double q-learning. In Proceedings of the AAAI conference on artificial intelligence (Vol. 30, No. 1).
  4. Schulman, J., Wolski, F., Dhariwal, P., Radford, A. and Klimov, O., 2017. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
  5. Brockman, G. et al., 2016. Openai gym. arXiv preprint arXiv:1606.01540.

Bibliografia Complementar

  1. NORVIG, P.; RUSSELL, S., Inteligência Artificial, 3ª ed., Campus Elsevier, 2013.
  2. SILVER, D.; SINGH S.; PRECUP D.; SUTTON R. Reward is enough. Artificial Intelligence. Vol 299, 2021.
  3. MuZero: Mastering Go, chess, shogi and Atari without rules. Publicado em Dezembro, 2020.
  4. SILVER, D.; HUBERT T.; SCHRITTWIESER, J.; ANTONOGLOU, I.; LAI, M.; GUEZ, A. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science 362, 1140-1144 (2018).
  5. Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D. and Riedmiller, M., 2013. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

Last update: February 1, 2024