Python自然語言處理(四):繁簡轉換利器OpenCC

Source: Deep Learning on Medium

Python自然語言處理(四):繁簡轉換利器OpenCC

安裝

pip install opencc-python-reimplemented

使用

from opencc import OpenCC

cc = OpenCC('t2s')
text = '投票當天需攜帶投票通知單、國民身分證及印章,若沒有收到投票通知書,可以向戶籍所在地鄰長查詢投票所,印章則是可以用簽名代替,至於身分證則是一定要攜帶。'

print(cc.convert(text))

轉換模式

  • hk2s: 繁體中文 (香港) -> 簡體中文
  • s2hk: 簡體中文 -> 繁體中文 (香港)
  • s2t: 簡體中文 -> 繁體中文
  • s2tw: 簡體中文 -> 繁體中文 (台灣)
  • s2twp: 簡體中文 -> 繁體中文 (台灣, 包含慣用詞轉換)
  • t2hk: 繁體中文 -> 繁體中文 (香港)
  • t2s: 繁體中文 -> 簡體中文
  • t2tw: 繁體中文 -> 繁體中文 (台灣)
  • tw2s: 繁體中文 (台灣) -> 簡體中文
  • tw2sp: 繁體中文 (台灣) -> 簡體中文 (包含慣用詞轉換 )

注意:如果我們使用的是s2twp和tw2sp模式,則慣用詞也會跟著被轉換

資訊工程系被翻成信息工程系

參考資料: