推薦序
推薦語
前言
主要數學符號表
第1章:新手上路
1.1 自然語言與程式語言
1.2 自然語言處理的層次
1.3 自然語言處理的流派
1.4 機器學習
1.5 語料庫
1.6 開源工具
1.7 總結
第2章:詞典分詞
2.1 什麼是詞
2.2 詞典
2.3 切分演算法
2.4 字典樹
2.5 雙陣列字典樹
2.6 AC 自動機
2.7 基於雙陣列字典樹的AC自動機
2.8 HanLP的詞典分詞實作
2.9 準確率評測
2.10 字典樹的其他應用
2.11 總結
第3章:二元語法與中文分詞
3.1 語言模型
3.2 中文分詞語料庫
3.3 訓練
3.4 預測
3.5 評測
3.6 日語分詞
3.7 總結
第4章:隱馬可夫模型與序列標註
4.1 序列標註問題
4.2 隱馬可夫模型
4.3 隱馬可夫模型的樣本生成
4.4 隱馬可夫模型的訓練
4.5 隱馬可夫模型的預測
4.6 隱馬可夫模型應用於中文分詞
4.7 二階隱馬可夫模型 *
4.8 總結
第5章:感知器分類與序列標註
5.1 分類問題
5.2 線性分類模型與感知器演算法
5.3 基於感知器的人名性別分類
5.4 結構化預測問題
5.5 線性模型的結構化感知器演算法
5.6 基於結構化感知器的中文分詞
5.7 總結
第6章:條件隨機域與序列標註
6.1 機器學習的模型譜系
6.2 條件隨機域
6.3 條件隨機域工具包
6.4 HanLP的CRF++ API
6.5 總結
第7章:詞性標註
7.1 詞性標註概述
7.2 詞性標註語料庫與標註集
7.3 序列標註模型應用於詞性標註
7.4 自訂詞性
7.5 總結
第8章:命名實體識別
8.1 概述
8.2 基於規則的命名實體識別
8.3 命名實體識別語料庫
8.4 基於層疊隱馬可夫模型的角色標註框架
8.5 基於序列標註的命名實體識別
8.6 自訂領域命名實體識別
8.7 總結
第9章:資訊抽取
9.1 新詞提取
9.2 關鍵字提取
9.3 短語提取
9.4 關鍵句提取
9.5 總結
第10章:文字聚類
10.1 概述
10.2 文件的特徵提取
10.3 k 平均值演算法
10.4 重複二分聚類演算法
10.5 標準化評測
10.6 總結
第11章:文字分類
11.1 文字分類的概念
11.2 文字分類語料庫
11.3 文字分類的特徵提取
11.4 單純貝氏分類器
11.5 支援向量機分類器
11.6 標準化評測
11.7 情感分析
11.8 總結
第12章:依存句法分析
12.1 短語結構樹
12.2 依存句法樹
12.3 依存句法分析
12.4 基於轉移的依存句法分析
12.5 依存句法分析API
12.6 案例:基於依存句法樹的意見抽取
12.7 總結
第13章:深度學習與自然語言處理
13.1 傳統方法的局限
13.2 深度學習與優勢
13.3 word2vec
13.4 基於神經網路的高效能依存句法分析器
13.5 自然語言處理進階
自然語言處理學習資料推薦
書籍與雜誌
學術會議
公開課程
網站