第1章 開篇
1.1 什麼是語音辨識 2
1.2 語音辨識的歷史 4
1.3 語音辨識的用處 6
1.4 為什麼很難 8
1.5 本書的目標 10
1.6 小結 12
第2章 什麼是語音
2.1 語音學 16
2.2 聲音是如何產生的——發音語音學 16
2.3 聲音的真面目——聲學語音學 23
2.4 聲音是如何被感知的——感知語音學 29
2.5 總結 32
第3章 統計模式識別
3.1 什麼是模式識別 34
3.2 統計模式識別的思路 36
3.3 生成模型的訓練 40
3.4 判別模型的訓練 44
3.5 統計語音辨識的概要 45
3.6 總結 48
第4章 有限狀態自動機
4.1 什麼是有限狀態自動機 50
4.2 用有限狀態自動機表達的語言 53
4.3 各種各樣的有限狀態自動機 55
4.4 有限狀態自動機的性質 58
4.5 總結 59
第5章 語音特徵的提取
5.1 特徵提取的步驟 62
5.2 語音信號的數位化 64
5.3 人類聽覺模擬——頻譜分析 67
5.4 另一個精巧設計——倒譜分析 69
5.5 雜訊去除 72
5.6 總結 73
第6章 語音辨識:基本聲學模型
6.1 聲學模型的單位 76
6.2 什麼是隱瑪律可夫模型 78
6.3 隱瑪律可夫模型的概率計算 81
6.4 狀態序列的估計 83
6.5 參數訓練 85
6.6 總結 89
第7章 語音辨識:聲學模型
7.1 實際的聲學模型 92
7.2 判別訓練 94
7.3 深度學習 96
7.4 總結 98
第8章 語音辨識:語言模型
8.1 基於語法規則的語言模型 100
8.2 統計語言模型的思路 101
8.3 統計語言模型的建立方法 103
8.4 總結 108
第9章 語音辨識:搜索演算法
9.1 填補聲學模型和語言模型之間的空隙 112
9.2 狀態空間搜索 113
9.3 用樹形字典減少浪費 115
9.4 用集束搜索縮小範圍 116
9.5 用多次搜索提高精度 118
9.6 總結 120
第10章 語音辨識:WFST運算
10.1 WFST的合成運算 124
10.2 確定化 129
10.3 權重移動 133
10.4 最小化 134
10.5 總結 135
第11章 語音辨識:使用 WFST進行語音辨識
11.1 WFST轉換 138
11.2 聲學模型的 WFST轉換 139
11.3 發音字典的 WFST轉換 141
11.4 語言模型的 WFST轉換 142
11.5 WFST的搜索 144
11.6 總結 145
第12章 語義分析
12.1 什麼是語義表示 148
12.2 基於規則的語義分析處理 151
12.3 基於統計的語義分析處理 153
12.4 智慧手機的語音服務 156
12.5 總結 159
第13章 語音對話系統的實現
13.1 對話系統的開發方法 162
13.2 基於規則的對話管理 164
13.3 針對對話管理的統計方法 166
13.4 總結 170
第14章 終篇
14.1 語音分析工具 WaveSurfer 174
14.2 HMM構建工具 HTK 175
14.3 大詞彙量連續語音辨識引擎 Julius 177
14.4 虛擬代理對話工具 MMDAgent 179
14.5 深入學習之路 180
思考題的解答 182
參考文獻 188
後 記 191