Plano de aula
O plano de aula desta disciplina está divido em cinco (5) blocos. Para cada bloco as seguintes atividades estão planejadas.
Atenção!
O programa está sempre sujeito a alterações e adaptações conforme as disciplina é executada.
Introdução sobre Aprendizagem por Reforço e Revisão sobre Agentes Autônomos
Data |
Conteúdo |
Programação/Atividade |
03-Fev |
Apresentação da disciplina e Introdução à Aprendizagem por Reforço |
Aula expositiva com debate e resolução de exercícios |
05-Fev |
Apresentação da disciplina e Introdução à Aprendizagem por Reforço |
Aula expositiva com debate e resolução de exercícios |
O conteúdo associado a este bloco é 1
Algoritmos Tabulares (Q-Learning e Sarsa)
Data |
Conteúdo |
Programação/Atividade |
10-Fev |
Algoritmo Q-Learning. Ferramentas e ambientes para RL |
Aula expositiva com roteiro de implementação. |
12-Fev |
Algoritmo Q-Learning, ferramentas para Reinforcement Learning e Environments. |
Aula expositiva com roteiro de implementação. |
17-Fev |
Sem aula |
|
19-Fev |
Algoritmo SARSA |
Aula expositiva com roteiro de implementação. |
24-Fev |
Como avaliar a performance de um agente e sua curva de aprendizado |
Aula expositiva com roteiro de implementação. |
26-Fev |
Usando RL em ambiente não-determinísticos |
Apresentação do problema e implementação da solução em grupo. |
10-Março |
Revisão: Q-Learning, SARSA, ambientes determinísticos ou não, avaliação de agentes |
Debate em sala de aula sobre resultados alcançados até então com as implementações realizadas. |
O conteúdo associado a este bloco é 2, 3, 4, 5, 6, 7, 8.
Deep Reinforcement Learning: value-based e policy gradient
Data |
Conteúdo |
Programação/Atividade |
12-Março |
Implementando um agente que precisa lidar com um ambiente mais complexo |
Apresentação do problema e implementação da solução em grupo. |
17-Março |
Deep Q-Learning |
Aula expositiva com roteiro de implementação. |
19-Março |
Variantes do algoritmo Deep Q-Learning |
Aula expositiva com roteiro de implementação. |
24-Março |
Variantes do algoritmo Deep Q-Learning |
Aula expositiva com roteiro de implementação. |
26-Março |
Algoritmo Reinforce |
Aula expositiva com roteiro de implementação. |
31-Março |
Sem aula |
Implementação do projeto 1 |
02-Abril |
Sem aula |
Implementação do projeto 1 |
7-Abril |
Enunciado do projeto intermediário |
Aula expositiva com roteiro de implementação. |
9-Abril |
Revisão e discussão sobre os resultados obtidos com as últimas APSs |
Aula expositiva com roteiro de implementação. |
Deep Reinforcement Learning: actor-critic
Data |
Conteúdo |
Programação/Atividade |
14-Abril |
Actor-Critic (A2C) |
Aula expositiva com roteiro de implementação. |
16-Abril |
Proximal Policy Optimization Algorithms (PPO) |
Aula expositiva com roteiro de implementação. |
23-Abril |
Ambientes multi-agent e criação de ambientes |
Aula expositiva com roteiro de implementação. |
28-Abril |
RLHF e uso de RL em LLMs |
Aula expositiva com roteiro de implementação. |
Projeto Final
Data |
Conteúdo |
Programação/Atividade |
30-Abril |
Definindo o escopo do projeto final |
Aula studio |
5-Maio |
Desenvolvimento dos projetos |
Aula Studio para execução do projeto final |
7-Maio |
Desenvolvimento dos projetos |
Entrega do título do projeto e da descrição do ambiente (environment) |
12-Maio |
Apresentação dos resultados do projeto intermediário |
Aula Studio para execução do projeto final |
14-Maio |
Apresentação do status do projeto final |
Aula Studio para execução do projeto final |
19-Maio |
Apresentação final do projeto |
Entrega da descrição dos métodos e resultados |
21-Maio |
Avaliação |
Avaliação Final |
26-Maio |
Não teremos aula |
Não teremos aula |
28-Maio |
Não teremos aula |
Não teremos aula |