√ 深入淺出地介紹自然語言處理和機器學習技術
√ 透過本書,讀者將學習和理解:
★ 概率論、資訊理論、貝葉斯法則等基礎知識
★ 最佳化問題、最大似然估計、梯度下降法
★ 機器學習和深度學習的熱門話題
★ 程式最佳化的方法
★ PageRank和相似度計算的原理
★ 搜尋引擎的原理、架構和核心模組
★ 各種推薦演算法的原理和工作機制
★ 自然語言處理和對話系統等技術難題
自然語言處理是研究人機之間用自然語言通信的理論和方法,是人工智慧領域的一個重要分支,有著非常廣泛的應用空間。
本書結合作者多年學習和從事自然語言處理相關工作的經驗,力圖用生動的方式深入淺出地介紹自然語言處理的理論、方法和技術。拋棄繁瑣的證明,提取出演算法的核心,幫助讀者儘快地掌握自然語言處理所必備的知識和技能。
全書分兩大部分:理論篇和應用篇。理論篇,包含前3章。第1章和第2章是為第3章打基礎,第1章介紹一些基礎的數學知識,第2章介紹最佳化理論知識,第3章實際介紹一些機器學習的相關知識。
應用篇,包含第4章到第8章。第4章介紹計算效能,算是更偏工程的唯一章節;第5章介紹文字處理時的一些基本術語,其中相似度計算的內容非常重要;第6章介紹一個工業搜尋引擎需要哪些技術點;第7章說明的是推薦系統的基礎知識;第8章介紹了解語言的難點,包含兩大基礎知識--自然語言處理和對話系統,當然也討論到對人工智慧一些看法。
適用:從事機器學習或自然語言處理的工作人員,尤其適合想要瞭解和掌握機器學習或自然語言處理技術的讀者閱讀。
作者簡介:
路彥雄 從事自然語言處理和機器學習相關工作多年,具有豐富經驗。
曾任微信小微機器人技術負責人,現任微信整合搜索演算法組組長。
作者序
前言
現在還記得當年剛畢業踏入工作的情景-- 專業知識幾乎一張白紙的我,學習欲望非常強烈,工作之餘就是看各種書籍,翻閱各種論文,一開始是在部落格上記筆記,後來轉到印象筆記來記錄。這些筆記都是我成長的見證,也是我個人的一些歸納和思考,但卻總是零零散散的,所以想整理成正式一點的文件,方便查閱。這些知識(去除掉不可公開的內容後)在大家平常的學習和工作中都會用到,整理成文件也可以作為別人的一種參考資料;我也希望除了必不可少的公式外,以更口語化的方式表達,拋棄繁瑣的證明,觸及演算法的核心,盡可能達到深入淺出。當我把文件整理完成後就放到網上,竟然收到網友的一致好評,算是意外的收穫,也令我非常高興。於是,我就加強增補一些內容寫成這本書。站在更高層面來說,自然語言處理還處在初級階段,離人了解語言還是相差好遠,希望本書能喚起更多人的興趣,共同加強自然語言處理技術的功力。
本書的適合讀者群包含電腦相關的學習者、從事機器學習或自然語言處理的工作人員,當然,我希望更多的人來翻閱,大致了解文字技術的輪廓並從中受益。
本書主要分兩大部分:理論篇和應用篇。第一部分是理論篇,包含前3章。第1章和第2章是為第3章打基礎,其中第1章介紹的是一些基礎的數學知識,第2章介紹最佳化理論知識,第3章實際介紹一些機器學習的相關知識。
第二部分是應用篇,包含第4章到第8章。第4章介紹計算效能,算是更偏工程的唯一章節;第5章介紹文字處理時的一些基本術語,其中相似度計算的內容非常重要;第6章介紹一個工業搜尋引擎需要哪些技術點;第7章說明的是推薦系統的基礎知識;第8章介紹了解語言的難點,包含兩大基礎知識--自然語言處理和對話系統,當然也討論到對人工智慧一些看法。
非常感謝我的父母和家人的支援,讓我進入一個蓬勃發展的互聯網企業,有幸見證這個企業的發展,貢獻一份綿薄之力。感謝我的老闆、同事和朋友們,和他們的交流對我有很大的啟發和幫助。感謝出版社的編
輯對本書的認真修改。最後,感謝在工作和生活中幫助過我的所有人,謝謝你們!
雖然花了一些時間和精力去核對書中內容,但因為時間倉促,本人水準有限,難免會有一些錯誤和紕漏。如果讀者發現問題,懇請不吝指出,相關資訊可回饋到我的電子郵件yanxionglu@gmail.com。
前言
現在還記得當年剛畢業踏入工作的情景-- 專業知識幾乎一張白紙的我,學習欲望非常強烈,工作之餘就是看各種書籍,翻閱各種論文,一開始是在部落格上記筆記,後來轉到印象筆記來記錄。這些筆記都是我成長的見證,也是我個人的一些歸納和思考,但卻總是零零散散的,所以想整理成正式一點的文件,方便查閱。這些知識(去除掉不可公開的內容後)在大家平常的學習和工作中都會用到,整理成文件也可以作為別人的一種參考資料;我也希望除了必不可少的公式外,以更口語化的方式表達,拋棄繁瑣的證明,觸及演算法的核心,盡可能達到深入淺出。...
目錄
前 言
第一篇 理論篇
01 你必須知道的一些基礎知識
1.1 機率論
1.2 資訊理論
1.3 貝氏法則
1.4 問題與思考
02 我們生活在一個尋求最佳解的世界裡
2.1 最佳化問題
2.2 最大似然估計/ 最大後驗估計
2.3 梯度下降法
2.4 問題與思考
03 讓機器可以像人一樣學習
3.1 何謂機器學習
3.2 邏輯回歸/ 因數分解機
3.3 最大熵模型/ 條件隨機場
3.4 主題模型
3.5 深度學習
3.6 其他模型
3.7 問題與思考
第二篇 應用篇
04 如何計算得更快
4.1 程式最佳化
4.2 分散式系統
4.3 Hadoop
4.4 問題與思考
05 你要知道的一些術語
5.1 tf/df/idf
5.2 IG/CHI/MI
5.3 PageRank
5.4 相似度計算
5.5 問題與思考
06 搜尋引擎是什麼
6.1 搜尋引擎原理
6.2 搜尋引擎架構
6.3 搜尋引擎核心模組
6.4 搜索廣告
6.5 問題與思考
07 如何讓機器猜得更準
7.1 以協作過濾為基礎的推薦演算法
7.2 以內容為基礎的推薦演算法
7.3 混合推薦演算法
7.4 問題與思考
08 了解語言有多難
8.1 自然語言處理
8.2 對話系統
8.3 語言的特殊性
8.4 問題與思考
A 結語
B 參考文獻
前 言
第一篇 理論篇
01 你必須知道的一些基礎知識
1.1 機率論
1.2 資訊理論
1.3 貝氏法則
1.4 問題與思考
02 我們生活在一個尋求最佳解的世界裡
2.1 最佳化問題
2.2 最大似然估計/ 最大後驗估計
2.3 梯度下降法
2.4 問題與思考
03 讓機器可以像人一樣學習
3.1 何謂機器學習
3.2 邏輯回歸/ 因數分解機
3.3 最大熵模型/ 條件隨機場
3.4 主題模型
3.5 深度學習
3.6 其他模型
3.7 問題與思考
第二篇 應用篇
04 如何計算得更快
4.1 程式最佳化
4.2 分散式系統
4.3 Hadoop
4.4 問題與思考
05 你要知道的一些術語...