CheXNet: an in-depth review

지난해 11월 발표되어 세상을 떠들썩하게 했던 스탠포드 팀의 ChexNet 논문에 대한 재평가가 이루어졌습니다.
이그룹에서도 해당 논문과 여러 그룹의 비판들을 다루었고 많은 논의가 이루어졌던 것으로 기억합니다. 논문 자체뿐만아니라 cxr14에 대한 비평도 많았었죠.
당시에도 논문의 methodology 등에 의문을 의료인의 시각으로 논평하였던 Luke Oakden-Rayner가 시간이 흐르고 스스로도 저자들과 소통하면서 이모저모를 뜯어본 글을 올렸습니다. (참고로 논문도 개정되었다고 하며 개정된 버전을 기준으로 논한다고 합니다)

일단 본문이 꽤 길지만 전체 다 읽어볼만하다고 생각합니다.

결론부분 위주로 요약정리해보겠습니다.

1. 저자는 CXR14의 레이블들 자체에 의문을 제기합니다. 당시 저자뿐만 아니라 많은 한국 연구자들도 개별레이블들이 얼마나 정확한지, 충분히 상세한지에 대해 다방면으로 비판하였었습니다.
2. 저자는 ChexNet 시스템은 가슴 X선 사진으로부터 “폐렴을 시사할 수 있는 영상의학적 소견들을 감지하는데” 인간 전문가와 유사한 정도의 수준에 도달하였다고 봅니다. 따옴표 안의 있는 내용을 해석하는데에는 주의를 기울여야하는데, 분명 “폐렴을 진단한다”와는 구분하여서 접근해야하기 때문입니다.
다만 저자는 영상의학과 의사들또한 개별적 가슴X선 사진을 접근할때 후자가 아닌 전자를 수행한다는 것을 강조하였습니다.

저자는 다음사항들에 대해서는 심증이 있으나 이 논문이나 현재의 연구수준으로 확신하지는 못한다고합니다.

3. 이 시스템은 (원래 논문을 둘러싼 언론보도들이 시사하였듯이) 인간을 초월한 능력(superhuman)을 갖추었다. 통계학적 방법론에 문제가 있었으며, 충분한 인간 데이터셋이 확보되지 않아 그런 주장을 받아들일수는 없다고합니다. 그러나 이것들은 ChexNet의 한계를 시사하는 것은 아니며 추후 더 나은 통계학적 분석과 더 많은 전문가들로 인한 validation이 이루어질 가능성은 받아들입니다.

4. 위의 1에도 불구하고 머신러닝 시스템들이 상당한 label noise 저항성을 가진다는 것이 이미 알려져있었으며 이 논문의 경우에도 그러함을 확인하였다고합니다. (Garbage in garbage out가 아니라 Garbage in cabbage out라고 표현합니다. 좋지못한 데이터에서도 유의미한 데이터를 뽑아낼수 있다는 것이죠)

그러나 이부분에 대한 확실한 검증은 추가적으로 이루어져야하며, 항상 최대한 정확한 레이블이 머신러닝 개발과 연구에 도움이 된다는 것은 자명하다고합니다.

단지, 데이터를 더 많이 구할지, 있는 데이터를 더욱 정제할지에 대해서는 명백한 답이 있지 않으며 tradeoff에 대해 고민해야한다고 합니다.

마지막으로
개정되면서 제거된 ROC 커브나 다른 통계학적 지표의 추가, outlier에 대한 상세 분석, 더 많은 의사들의 참여가 필요하다고 제언하며 글을 마무리하였습니다.

최초의 CheXNet 논문, 당시의 비평, 그리고 현재의 재평가 모두 깊이 고민해보고 공부할만한 부분들이 많다고 생각합니다.

CheXNet: an in-depth review : https://lukeoakdenrayner.wordpress.com/2018/01/24/chexnet-an-in-depth-review/

CheXNet 논문 링크 : https://arxiv.org/abs/1711.05225
(Submitted on 14 Nov 2017 (v1), last revised 25 Dec 2017 (this version, v3)) 논문 자체도 v3까지 나왔으며 원문도 그것을 기준으로 쓰여져있습니다.

CheXNet 처음 출판 당시 논의 참고 : https://lukeoakdenrayner.wordpress.com/2017/11/18/quick-thoughts-on-chestxray14-performance-claims-and-clinical-tasks/

Source: Deep Learning on Medium