Plano de aula
O plano de aula desta disciplina está divido em cinco (5) blocos. Para cada bloco as seguintes atividades estão planejadas.
Atenção!
O programa está sempre sujeito a alterações e adaptações conforme as disciplina é executada.
Introdução sobre Aprendizagem por Reforço e Revisão sobre Agentes Autônomos
| Data | Conteúdo | Programação/Atividade |
|---|---|---|
| 03-Fev | Apresentação da disciplina e Introdução à Aprendizagem por Reforço | Aula expositiva com debate e resolução de exercícios |
| 05-Fev | Apresentação da disciplina e Introdução à Aprendizagem por Reforço | Aula expositiva com debate e resolução de exercícios |
O conteúdo associado a este bloco é 1
Algoritmos Tabulares (Q-Learning e Sarsa)
| Data | Conteúdo | Programação/Atividade |
|---|---|---|
| 10-Fev | Algoritmo Q-Learning. Ferramentas e ambientes para RL | Aula expositiva com roteiro de implementação. |
| 12-Fev | Algoritmo Q-Learning, ferramentas para Reinforcement Learning e Environments. | Aula expositiva com roteiro de implementação. |
| 17-Fev | Sem aula | |
| 19-Fev | Algoritmo SARSA | Aula expositiva com roteiro de implementação. |
| 24-Fev | Como avaliar a performance de um agente e sua curva de aprendizado | Aula expositiva com roteiro de implementação. |
| 26-Fev | Usando RL em ambiente não-determinísticos | Apresentação do problema e implementação da solução em grupo. |
| 10-Março | Revisão: Q-Learning, SARSA, ambientes determinísticos ou não, avaliação de agentes | Debate em sala de aula sobre resultados alcançados até então com as implementações realizadas. |
O conteúdo associado a este bloco é 2, 3, 4, 5, 6, 7, 8.
Deep Reinforcement Learning: value-based e policy gradient
| Data | Conteúdo | Programação/Atividade |
|---|---|---|
| 12-Março | Implementando um agente que precisa lidar com um ambiente mais complexo | Apresentação do problema e implementação da solução em grupo. |
| 17-Março | Deep Q-Learning | Aula expositiva com roteiro de implementação. |
| 19-Março | Variantes do algoritmo Deep Q-Learning | Aula expositiva com roteiro de implementação. |
| 24-Março | Variantes do algoritmo Deep Q-Learning | Aula expositiva com roteiro de implementação. |
| 26-Março | Algoritmo Reinforce | Aula expositiva com roteiro de implementação. |
| 31-Março | Sem aula | Implementação do projeto 1 |
| 02-Abril | Sem aula | Implementação do projeto 1 |
| 7-Abril | Enunciado do projeto intermediário | Aula expositiva com roteiro de implementação. |
| 9-Abril | Revisão e discussão sobre os resultados obtidos com as últimas APSs | Aula expositiva com roteiro de implementação. |
Deep Reinforcement Learning: actor-critic
| Data | Conteúdo | Programação/Atividade |
|---|---|---|
| 14-Abril | Actor-Critic (A2C) | Aula expositiva com roteiro de implementação. |
| 16-Abril | Proximal Policy Optimization Algorithms (PPO) | Aula expositiva com roteiro de implementação. |
| 23-Abril | Ambientes multi-agent e criação de ambientes | Aula expositiva com roteiro de implementação. |
| 28-Abril | RLHF e uso de RL em LLMs | Aula expositiva com roteiro de implementação. |
Projeto Final
| Data | Conteúdo | Programação/Atividade |
|---|---|---|
| 30-Abril | Definindo o escopo do projeto final | Aula studio |
| 5-Maio | Desenvolvimento dos projetos | Aula Studio para execução do projeto final |
| 7-Maio | Desenvolvimento dos projetos | Entrega do título do projeto e da descrição do ambiente (environment) |
| 12-Maio | Entrega do projeto intermediário | Aula Studio para execução do projeto final |
| 14-Maio | Desenvolvimento do projeto final | Aula Studio para execução do projeto final |
| 19-Maio | Entrega do projeto final | Entrega da descrição dos métodos e resultados |
| 21-Maio | Avaliação | Avaliação Final |
| 26-Maio | Não teremos aula | Não teremos aula |
| 28-Maio | Não teremos aula | Não teremos aula |