Functions
AI Assistant

Descida de Gradiente

O algoritmo que ensina a IA a aprender

A descida de gradiente encontra o mínimo de uma função dando passos na direção oposta ao gradiente (inclinação). A fórmula é x_{n+1} = x_n − α · f'(x_n), onde α é a taxa de aprendizado — o tamanho do passo.

O gráfico mostra f(x) = x⁴ − 3x² + 2, uma função com dois mínimos locais. Partindo de diferentes posições, a descida de gradiente pode convergir para mínimos diferentes. Isso ilustra um desafio central no aprendizado de máquina: mínimos locais versus mínimo global.

Peça à IA "Execute descida de gradiente partindo de x = 2" ou "O que acontece com taxa de aprendizado muito alta?"

Graph

FAQ

O que é descida de gradiente?
Descida de gradiente é um algoritmo de otimização que encontra mínimos de funções. Em cada passo, move-se na direção oposta ao gradiente (inclinação): x_novo = x_velho − α · f'(x_velho). O parâmetro α (taxa de aprendizado) controla o tamanho do passo.
O que é a taxa de aprendizado?
A taxa de aprendizado α controla o tamanho de cada passo. Muito pequena: converge lentamente. Muito grande: pode "pular sobre" o mínimo e divergir. A escolha certa é um equilíbrio — normalmente entre 0.001 e 0.1 na prática.
Qual é a diferença entre mínimo local e global?
Um mínimo global é o menor valor em toda a função. Mínimos locais são os menores em uma vizinhança, mas podem ser mais altos que o global. A descida de gradiente só garante encontrar um mínimo local — pode ou não ser o global.
Como a descida de gradiente se relaciona com IA?
Redes neurais minimizam uma "função de perda" que mede o erro do modelo. A descida de gradiente (na prática, variantes como Adam ou SGD) ajusta os pesos da rede para reduzir esse erro. Treinar uma IA é essencialmente descida de gradiente em um espaço de milhões de dimensões.