混淆矩陣(confusion matrix)介紹

Source: Deep Learning on Medium

在機器學習中,最常見的就是分類模型,像是垃圾郵件分類、手寫數字判定等等

那我們要怎麼去判定一個分類模型表現的到底好不好,基本上混淆矩陣(confusion matrix)的各項指標會被拿來參考

那今天我們先來認識一下組成混淆矩陣的四個元素(TP,TN,FP,FN)吧

TP(True Positive): 正確預測成功的正樣本,例如在一個預測是不是貓的圖像分類器,成功的把一張貓的照片標示成貓,即為TP

TN(True Negative): 正確預測成功的負樣本,以上述例子,成功的把一張狗的照片標示成不是貓,即為TN

FP(False Positive): 錯誤預測成正樣本,實際上為負樣本,例如:錯誤的把一張狗的照片標示成貓

FN(False Negative): 錯誤預測成負樣本(或者說沒能預測出來的正樣本),例如:錯誤的把一張貓的照片標示成不是貓

所以這樣看下來,很直覺的,我們會知道TP跟TN要越大越好,但總是不會有完美的系統,因此就會出現出FP及FN

有時候的情況能比較能接受FP的錯誤,例如我們要投放廣告給喜歡喝酒的人,如果不小心投放到其他客群,也並不是那麼嚴重

相反的,如果是一個門禁的臉部辨識系統,FP的錯誤就相當嚴重

在統計學上FP被還被稱為第一型錯誤(Type 1 Error),FN被稱為第二型錯誤(Type 2 Error)

了解混淆矩陣對於我們評估許多機器學習的模型有很大的幫助,接下來我們會介紹如何例如混淆矩陣來計算Precision, Recall, Accuracy等分數

參考資料:

1. 維基百科: https://zh.wikipedia.org/wiki/混淆矩阵