이때, Loss의 변화량 $L(\theta+\Delta\theta) - L(\theta) = \Delta L$라고 하면 다음과 같다.
$$\Delta L = \dot{L(\theta)}\Delta\theta$$
경사 하강법에선 $\Delta L$은 음의 부호(감소)를 가지기 때문에, 우변도 음의 부호를 가져야 한다.
우변이 $\dot{L(\theta)}$ 값과 상관 없이, 음의 부호를 가지기 위해선 $\Delta\theta = -\alpha \dot{L(\theta)}$를 만족해야 한다. 이를 통해 최종적으로 다음 식을 얻을 수 있다.
$$\Delta L = -\alpha\dot{L(\theta)}^{2}$$
앞서 근사식의 오차를 줄이기 위해서 $\Delta\theta$를 매우 작게 설정했기 때문에 상수인 $\alpha$ 또한 작은 값으로 설정해야 한다. 이는 경사 하강법의 근사가 매우 작은 크기로 $\theta$를 변화 시키는 $\alpha$에서만 가능하다는 것을 의미한다.
여기서 $\alpha$는 일반적으로 Learning Rate(학습률)로 불리며 실제로 $1e^{-3}, 1e^{-4}$과 같이 작은 값을 사용한다.