Aprendizagem por Reforço
Ementa
Aprendizagem por Reforço. Algoritmos de Aprendizagem por Reforço. Implementação de agentes autônomos usando aprendizagem por reforço.
Objetivos
Ao final da disciplina o estudante será capaz de:
- Construir um sistema baseado em aprendizagem por reforço para tomada de decisões sequenciais.
- Compreender como se deve formalizar uma tarefa considerando um problema de aprendizagem por reforço e como implementar uma solução.
- Compreender os tipos de algoritmos de aprendizagem por reforço: tabular, value-based, policy gradient e actor-critic.
- Compreender qual é a relação de aprendizagem por reforço com aprendizagem supervisionada e não-supervisionada. supervised learning.
Conteúdo Programático
- Introdução ao Aprendizado por Reforço.
- Implementação de agentes autônomos usando aprendizagem por reforço.
- Taxonomia dos algoritmos de aprendizagem por reforço.
- Temporal-Difference learning.
- Algoritmo Q-Learning.
- Algoritmo Sarsa.
- Deep Reinforcement Learning.
- Algoritmos do tipo Deep Q-Learning.
- Reinforce: um algoritmo de Policy Gradient.
- Algoritmos do tipo Actor-Critic.
- Implementações de agentes autônomos usando projetos, tais como, Gymnasium da Farama e a biblioteca para reinforcement learning do Kaggle.
- Exemplos de soluções usando aprendizagem por reforço.
Bibliografia Básica
- GÉRON, A. Hands-on Machine Learning with Scikit-learn, Keras, and TensorFlow, 2ª ed., O'Reilly, 2021.
- SUTTON, R.; BARTO, A. Reinforcement Learning: An Introduction. Second Edition. The MIT Press, 2018.
- Van Hasselt, H., Guez, A. and Silver, D., 2016, March. Deep reinforcement learning with double q-learning. In Proceedings of the AAAI conference on artificial intelligence (Vol. 30, No. 1).
- Schulman, J., Wolski, F., Dhariwal, P., Radford, A. and Klimov, O., 2017. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
- Brockman, G. et al., 2016. Openai gym. arXiv preprint arXiv:1606.01540.
Bibliografia Complementar
- NORVIG, P.; RUSSELL, S., Inteligência Artificial, 3ª ed., Campus Elsevier, 2013.
- SILVER, D.; SINGH S.; PRECUP D.; SUTTON R. Reward is enough. Artificial Intelligence. Vol 299, 2021.
- MuZero: Mastering Go, chess, shogi and Atari without rules. Publicado em Dezembro, 2020.
- SILVER, D.; HUBERT T.; SCHRITTWIESER, J.; ANTONOGLOU, I.; LAI, M.; GUEZ, A. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science 362, 1140-1144 (2018).
- Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D. and Riedmiller, M., 2013. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
Last update:
February 1, 2024