[Paper Review] An Effective Pipeline for a Real-world Clothes Retrieval System

Original article was published by 한지승 on Deep Learning on Medium


이번 6월에 네이버에서 일상 이미지에서 패션상품을 검색하는 시스템 구조에 대한 논문을 발표하였다. 이 논문은 제안한 시스템 구조로 DeepFashion2 Clothes Retrieval 2020 challenge에서 2위를 수상하기도 했다. 필자 또한 관련 시스템 구조를 설계하고 구현하는 일을 했기 때문에 관심이 많이 가는 논문이라 리뷰를 하게 되었다.

DeepFashoin2의 패션 아이템 검색 예제

기본적인 구성으로는 크게 Detection, Retrieval와 Post-processing으로 구성하고 있다. 이는 일상 이미지 내에서 패션 아이템을 찾아내는 Detection 요소와 이렇게 뽑아낸 패션 아이템 이미지를 임베딩을 하는 Retrieval이 있다. 마지막으로 이러한 요소들 간에 효율적인 성능을 달성하기 위해 Post-processing 요소가 있다.

우선 Detection 단계에서는 흔히 사용되는 Object detection 모델을 사용을 한다. 이 논문에서 제안하는 모델에서는 효과적인 패션 아이템 검출을 위해서 높은 성능을 보이는 Adaptive training sample selection (ATSS), Cascaded Mask RCNN, CenterNet, RetinaNet-R101-FPN, RetinaNet-X101-FPN의 모델을 동시에 사용하는 방식을 이용한다. 여러 모델을 사용함으로서 노이즈로 작용되는 요소나 잘못 검출된 바운딩박스 위치에 대해서 검색이 영향을 받지 않기 위해서이다. 이 때 여러 모델로부터 검출된 정보를 Weighted boxes fusion (WBF)라는 Post-processing을 통해 여러 바운딩박스를 잘 융합할 수 있게 돕는다.

다음으로 Retrieval 단계에서는 검출된 패션 아이템에서 검색을 위한 임베딩을 하는 단계로 ResNet152, SE-ResNeXt101과 같은 모델을 이용하였으며 2019년에 네이버에서 발표했던 프레임워크 Combination of multiple global descriptors (CGS)를 이용했다고 언급했다.

이와 관련해서 해당 논문을 자세히 읽은 뒤 리뷰를 하도록 하겠다.

이렇게 얻어낸 임베딩은 Feature Concatenation이라는 Post-processing을 통해서 검색 가능한 임베딩을 만들어서 성능을 올렸다고 한다.

무엇보다 해당 시스템을 직접 설계하고 구축을 하면서 어떤 점이 문제였고 개선해야할 점들을 많이 느꼈었다. 그러던 와중 이 논문을 접하면서 비슷한 부분도 있고 또 그러한 문제를 어떻게 해결했는지 알 수 있었던 논문이었다고 생각한다.