Radam 논문읽기

Source: Deep Learning on Medium

Adaptive learning rate를 사용하는 optimizer들은 수렴 속도가 빠르지만 초기 학습때 gradient 분포가 왜곡되어 local optima에 빠지는 단점이 있다.
그래서 초기 learning rate를 매우 작게 설정하는 warm up 방법을 사용해서 이 단점을 극복한다.

이 논문은 local optima에 빠지는 원인과 warm up 방법을 분석해서 기존의 Adaptive Learning rate optimizer를 보완하는 RAdam을 제안한다.

저자는 학습 초기에 Adaptive learning rate을 계산할 때 표본이 적기 때문에 분산이 발산하고, 이로 인해 learning rate에 곱해지는 값이 제한없이 커져서 학습이 local optima에 빠진다고 주장한다.

이래와 같은 실험에서 local optima 수렴 문제가 나타나지 않는 것으로 자신의 가설을 증명한다.

  • 학습 2000 iteration 동안 Adaptive learning rate을 계산하는 표본을 모은 후에 adaptive learning rate기능을 적용하는 실험
  • epsilon을 크게 설정해서 분산을 작게 만들어주는 실험

저자는 Adaptive learning rate 계산에 사용되는 지수이동평균의 분산이 자유도가 증가함에 따라 단조로 감소하고 자유도를 기준으로 adaptive learning rate를 동적으로 적용해 분산이 발산하는 문제를 해결할 수 있다고 주장한다.

Language Modeling, Cifar 이미지 분류, ImageNet 이미지 분류 실험으로 RAdam이 Adam보다 성능이 좋고 빠르게 수렴하며 learning rate변화에 덜 민감하다는 것을 보이고 warm up을 적용한 Adam과의 비교에서도 비슷하지만 더 높은 성능을 보여줌으로 초기 학습에서 큰 분산이 문제였음을 증명한다.

결론: 초기 학습 때 적은 표본으로 인한 큰 분산이 낮은 성능의 원인이고 RAdam은 이를 해결해서 warm up 없이도 더 높은 성능을 보여준다.