구글과정으로 정리하는 데이터 종속성(Data Dependencies)

Source: Deep Learning on Medium


Go to the profile of Ellie Kang

개요 : 머신러닝 시스템에서는 기본적으로 기능이 코드를 대신한다. 유용하면서도 향후 시스템 안전을 저해하지 않을 기능을 포함시키려면 기본적으로 체크리스트를 매우 꼼꼼히 확인해야 한다. 이를 확인해보고 예시와 함께 살펴보자. Google Machine Learning Crash Course[1]을 듣고 정리하였다.


Data Dependency in ML

첫째, 신뢰할 수 있는 데이터인지 살펴봐야한다. 즉 지금 통합하려는 신호가 필요할 때마다 동일하게 생성될 지를 따져봐야한다. 
 둘째, 상관관계에 따라 기능이 우연히 생겼는지, 상관관계에 따라 발생했는지를 알아보고 이 상관관계가 달라지면 그 사실을 알 수 있는지도 따져봐야한다.이를 위해 시스템에 임의성을 도입하는 부분이 필요하다.
 셋째, 피드백 루프에 대해 고려해야 한다. 모델의 출력에 따라 입력 데이터가 결정되게 하는 것은 시스템 내 비정상성을 발생시킨다.이를 발생시키는 피드백 루프를 추적하여 처리하는 방법에 대한 고찰이 필요하다.


Feedback Loop in ML[3]

그렇다면 이 피드팩 루프에 취약한 모델은 어떤 것이 있을까?
 1. 인기도(즉, 책 구매 횟수)를 바탕으로 사용자가 좋아할 만한 소설을 추천하는 도서 추천 모델
 책 추천은 구매를 촉진할 가능성이 높고, 이렇게 발생한 추가 판매량이 모델에 입력을 통해 반영되며, 그 결과 향후 같은 책이 추천될 확률이 높아진다.

2. 경쟁률을 기준으로 부분적으로 학교를 평가하는 대학순위 모델

학교는 계속해서 같은 수의 학생만을 입학허가한다. 하지만 점점 순위에 노출된 학교의 경쟁률과 관심은 높아지며, 이에 대한 루프가 계속 반복된다.