3D pose regression using convolutional neural networks 논문읽기

Source: Deep Learning on Medium

3D pose regression using convolutional neural networks 논문읽기

2d 이미지에서 3d 정보를 알아내는 문제를 해결하는 논문이다.
azimuth, elevation, camera-tilt, distance to camera, x, y를 찾아내는 문제다. 전에 봤던 논문에는 pitch, roll, yaw를 찾아내려고 했었는데 task마다 다른가보다. 이 논문은 물체의 bounding box를 알고있다는 가정 하에 그 안의 물체의 회전을 알아내려고 한다.

논문에 의하면 3d pose를 알아내는 방법에는 두 가지가 있는데

  1. 물체의 키포인트를 찾고 키포인트를 이용해 pose 측정
  2. 이미지에서 바로 3d pose 측정

이 논문은 두 번째 방법을 사용한다.

의외로 이 논문에서 처음으로 각도 표현에 quaternion과 axis-angle을 사용했다고 한다. 또한 geodesic loss를 사용했다. 이 논문에서 비교대상으로 삼은 두 가지 SOTA모델은 360도를 classification하는 방법을 사용했다. 각도 자체가 연속적인 공간이기 때문에 각 표현 방법을 사용했고 3차원에서 groung truth 각도와 predicted 각도의 거리를 비교하기 위해서 geodesic loss를 사용했다.

data augmentation에서는 3d pose에 조금씩 변화를 주는 3d pose jittering을 사용했다.

모델은 vgg-m에 fc를 객체 카테고리 별로 만들어버리는 어마어마한 방법을 사용했다.

개인적으로 인상깊지는 않았고 각도 예측에서 continuous한 문제를 해결하려 한 논문으로 on the continuity of rotation representations in neural networks 가 훨씬 접근이 좋았던 것 같다.