Perplexity是什麼?

Source: Deep Learning on Medium

Perplexity通常可以拿來衡量一個語言模型(Language Model)的一個方法,先來看一下他的數學定義

我們可以用以下的式子來表示一個句子的機率

每個字為獨立機率,相乘後等於該句子機率

P(wi)為第i個字的機率,而怎麼計算這個機率就是不同語言模型的工作。例如unigram可以表示成 P(wi),該字出現的機率跟其他字出現是獨立的。而bigram可以表示成 P(wi|wi-1),每個字的機率都依賴於前一個字

而Perplexity的公式為

Perplexity的計算公式

我們將上面的公式細部拆解來看

註:不影響比較結果的意思是,當今天有多個模型用Perplexity來進行比較時,取對數跟指數並不會影響原本的排名結果

所以我們可以推論,Perplexity越小才是越好的語言模型