深度學習 — 自動語音辨識

Source: Deep Learning on Medium


Go to the profile of 陳明佐

先上連結:https://juejin.im/post/5ba4df8b6fb9a05d0b143463#heading-4

原理

ASR的輸入是語音片段( Spectrogram , MFCCs ) ,輸出是對應的文本內容

使用深度網路(DNN)實現ASR的一般流程如下:

  • 從原始語音到聲學特徵
  • 將聲學特徵輸入到神經網絡,輸出對應的概率
  • 根據概率輸出文本序列

本文使用 Google研發的 WaveNet 針對 ASR 語音辨識議題,進行研究發展

採用WaveNet 中的主要使用了多層因果空洞卷積(Causal Dilated

卷積)和跳過連接

因果是指,卷積的輸出只和當前位置之前的輸入有關,即不使用未來的特徵,可以理解為將捲積的位置向前偏移。

空洞是指,卷積是跳躍進行的,經過多次堆疊後可以有效地擴大感受野,從而學習到長序列之間的依賴 ; 本文實現,使用CTC(Connectionist temporal classification)算法來計算損失函數。

數據

使用以下數據:
www.openslr.org/18/,包括13388條中文語音文件以及對應的文本標註