7. Optimization
O Gradiente Descendente é um algoritmo de otimização usado para minimizar a função de perda em modelos de aprendizado de máquina. Ele funciona ajustando iterativamente os parâmetros do modelo na direção do declive mais acentuado da função de perda, definida pelo gradiente negativo.
A ideia principal é atualizar os parâmetros do modelo na direção oposta ao gradiente:
Gradiente Descendente Puro (Vanilla)
onde:
- \(\theta\) representa os parâmetros do modelo,
- \(\eta\) é a taxa de aprendizado (hiperparâmetro que controla o tamanho do passo),
- \(\nabla J(\theta)\) é o gradiente da função de perda em relação aos parâmetros.
Um Método Baseado em Gradiente é um algoritmo que encontra os mínimos de uma função, assumindo que se pode calcular facilmente o gradiente dessa função. Assume que a função é contínua e diferenciável quase em todo lugar1.
Intuição do Gradiente Descendente: Imagine estar em uma montanha em uma noite com neblina. Como você quer descer ao vale e tem visibilidade limitada, olha ao redor para encontrar a direção de descida mais acentuada e dá um passo nessa direção1.