全書分為以下幾個部分:
統計學:機率、高斯、隨機、頻率派開始談起,包括統計描述、古典機率模型、離散隨機變數、離散分佈、連續隨機變數及連續分佈一直到高斯部分,包括了一元、二元、多元、條件高斯分佈,中間也提到最重要的斜方差矩陣。
再來的部分說明了隨機,包括了隨機變數,蒙地卡羅、頻率派統計、機率密度。
接下來說明了貝氏定理部分,包括貝氏分類、進階貝氏分類、貝氏推斷入門及進階以及馬可夫鏈蒙地卡羅。
最後一部分則以橢圓為主,包括了馬氏距離、線性迴歸及主成分分析,搭配本書系其它書籍,相信AI的數學,對你來說只會是開心而不是阻礙。
●宇宙的語言是數學,數學的精華是機率,機率的表達是統計!
●機器學習、深度學習、人工智慧,控制系統都覆蓋的機率統計基礎
●統計描述方法:描述、推斷、圖、差、位、距、值、度、變
●古典機率、條件機率、全機率理論
●離散變數、離散分佈、連續隨機變數
●一元、二元、多元、條件高斯分佈、斜方差矩陣
●隨機變數函式、蒙地卡羅模擬
●頻率派統計、機率密度、機率質量
●貝氏定理、貝氏分類、貝氏推斷、馬可夫鏈
●馬氏距離、線性迴歸、主成分分析
本書資源可至深智官網下載:https://deepwisdom.com.tw
作者簡介:
姜偉生
博士FRM。勤奮的小鎮做題家,熱愛知識可視化和開源分享。
自2022年8月開始,在GitHub上開源「鳶尾花書」學習資源,截至2023年9月,已經分享4000多頁PDF、4000多幅矢量圖、約2000個代碼文件,全球讀者數以萬計。
作者序
感謝
首先感謝大家的信任。
作者僅是在學習應用資料科學和機器學習演算法時,多讀了幾本數學書,多做了一些思考和知識整理而已。知者不言,言者不知。知者不博,博者不知。
由於作者水準有限,斗膽把自己所學所思與大家分享,作者權當無知者無畏。
希望大家在Github多提意見,讓這套書成為作者和讀者共同參與創作的作品。
特別感謝清華大學出版社的欒大成老師。從選題策劃、內容創作到裝幀設計,欒老師事無巨細、一路陪伴。每次與欒老師交流,都能感受到他對優質作品的追求、對知識分享的熱情。
出來混總是要還的
曾經,考試是我們學習數學的唯一動力。考試是頭懸樑的繩,是錐刺股的錐。我們中的大多數人從小到大為各種考試埋頭題海,數學味同嚼蠟,甚至讓人恨之入骨。
數學所帶來了無盡的「折磨」。我們甚至恐懼數學,憎恨數學,恨不得一走出校門就把數學拋之腦後,老死不相往來。
再給自己一個學數學的理由
為考試而學數學,是被逼無奈的舉動。而為數學而數學,則又太過高尚而遙不可及。
相信對絕大部分的我們來說,數學是工具、是謀生手段,而非目的。我們主動學數學,是想用數學工具解決具體問題。
現在,這套書給大家一個「學數學、用數學」的全新動力—資料科學、機器學習。
資料科學和機器學習已經深度融合到我們生活的各方面,而數學正是開啟未來大門的鑰匙。不是所有人生來都握有一副好牌,但是掌握「數學+程式設計+機器學習」的知識絕對是王牌。這次,學習數學不再是為了考試、分數、升學,而是投資時間、自我實現、面向未來。
未來已來,你來不來?
本套本書系如何幫到你
為了讓大家學數學、用數學,甚至愛上數學,作者可謂頗費心機。在創作這套書時,作者儘量克服傳統數學教材的各種弊端,讓大家學習時有興趣、看得懂、有思考、更自信、用得著。
為此,叢書在內容創作上突出以下幾個特點。
●數學+藝術——全書圖解,極致視覺化,讓數學思想躍然紙上、生動有趣、一看就懂,同時提高大家的資料思維、幾何想像力、藝術感。
●零基礎——從零開始學習Python程式設計,從寫第一行程式到架設資料科學和機器學習應用,儘量將陡峭學習曲線拉平。
●知識網路——打破數學板塊之間的門檻,讓大家看到數學代數、幾何、線性代數、微積分、機率統計等板塊之間的聯繫,編織一張綿密的數學知識網路。
●動手——授人以魚不如授人以漁,和大家一起寫程式、創作數學動畫、互動App。
●學習生態——構造自主探究式學習生態環境「紙質圖書+電子圖書+程式檔案+視覺化工具+思維導圖」,提供各種優質學習資源。
●理論+實踐——從加減乘除到機器學習,叢書內容安排由淺入深、螺旋上升,兼顧理論和實踐;在程式設計中學習數學,學習數學時解決實際問題。
雖然本書標榜「從加減乘除到機器學習」,但是建議讀者朋友們至少具備高中數學知識。如果讀者正在學習或曾經學過大學數學(微積分、線性代數、機率統計),這套書就更容易讀懂了。
聊聊數學
數學是工具。錘子是工具,剪刀是工具,數學也是工具。
數學是思想。數學是人類思想高度抽象的結晶體。在其冷酷的外表之下,數學的核心實際上就是人類樸素的思想。學習數學時,知其然,更要知其所以然。不要死記硬背公式定理,理解背後的數學思想才是關鍵。如果你能畫一幅圖、用大白話描述清楚一個公式、一則定理,這就說明你真正理解了它。
數學是語言。就好比世界各地不同種族有自己的語言,數學則是人類共同的語言和邏輯。數學這門語言極其精準、高度抽象,放之四海而皆準。雖然我們中大多數人沒有被數學「女神」選中,不能為人類對數學認知開疆擴土;但是,這絲毫不妨礙我們使用數學這門語言。就好比,我們不會成為語言學家,我們完全可以使用母語和外語交流。
數學是系統。代數、幾何、線性代數、微積分、機率統計、最佳化方法等,看似一個個孤島,實際上都是數學網路的一條條織線。建議大家學習時,特別關注不同數學板塊之間的聯繫,見樹,更要見林。
數學是基石。拿破崙曾說「數學的日臻完善和國強民富息息相關。」數學是科學進步的根基,是經濟繁榮的支柱,是保家衛國的武器,是探索星辰大海的航船。
數學是藝術。數學和音樂、繪畫、建築一樣,都是人類藝術體驗。透過視覺化工具,我們會在看似枯燥的公式、定理、資料背後,發現數學之美。
數學是歷史,是人類共同記憶體。「歷史是過去,又屬於現在,同時在指引未來。」數學是人類的集體學習思考,它把人的思維符號化、形式化,進而記錄、累積、傳播、創新、發展。從甲骨、泥板、石板、竹簡、木牘、紙草、羊皮卷、活字印刷、紙質書,到數位媒介,這一過程持續了數千年,至今綿延不息。
數學是無窮無盡的想像力,是人類的好奇心,是自我挑戰的毅力,是一個接著一個的問題,是看似荒誕不經的猜想,是一次次膽大包天的批判性思考,是敢於站在前人臂膀之上的勇氣,是孜孜不倦地延展人類認知邊界的不懈努力。
感謝
首先感謝大家的信任。
作者僅是在學習應用資料科學和機器學習演算法時,多讀了幾本數學書,多做了一些思考和知識整理而已。知者不言,言者不知。知者不博,博者不知。
由於作者水準有限,斗膽把自己所學所思與大家分享,作者權當無知者無畏。
希望大家在Github多提意見,讓這套書成為作者和讀者共同參與創作的作品。
特別感謝清華大學出版社的欒大成老師。從選題策劃、內容創作到裝幀設計,欒老師事無巨細、一路陪伴。每次與欒老師交流,都能感受到他對優質作品的追求、對知識分享的熱情。
出來混總是要還的
曾經,考試是我...
目錄
第1篇 統計
1 機率統計全景
1.1 必備數學工具:一個線性代數小測驗
1.2 統計描述
1.3 機率
1.4 高斯
1.5 隨機
1.6 頻率派
1.7 貝氏派
1.8 橢圓三部曲
2 統計描述
2.1 統計兩大工具:描述、推斷
2.2 長條圖:單特徵資料分佈
2.3 散點圖:兩特徵資料分佈
2.4 有標籤資料的統計視覺化
2.5 集中度:平均值、質心
2.6 分散度:極差、方差、標準差
2.7 分位:四分位、百分位等
2.8 箱型圖:小提琴圖、分佈散點圖
2.9 中心距:平均值、方差、偏度、峰度
2.10 多元隨機變數關係:協方差矩陣、相關性係數矩陣
第 2 篇 機率
3 古典機率模型
3.1 無處不在的機率
3.2 古典機率:離散均勻機率律
3.3 回顧:巴斯卡三角和機率
3.4 事件之間的關係:集合運算
3.5 條件機率:給定部分資訊做推斷
3.6 貝氏定理:條件機率、邊緣機率、聯合機率關係
3.7 全機率定理:窮舉法
3.8 獨立、互斥、條件獨立
4 離散隨機變數
4.1 隨機:天地不仁,以萬物為芻狗
4.2 期望值:隨機變數的可能設定值加權平均
4.3 方差:隨機變數離期望距離平方的平均值
4.4 累積分佈函數(CDF):累加
4.5 二元離散隨機變數
4.6 協方差、相關性係數
4.7 邊緣機率:偏求和,相當於降維
4.8 條件機率:引入貝氏定理
4.9 獨立性:條件機率等於邊緣獨立
4.10 以鳶尾花資料為例:不考慮分類標籤
4.11 以鳶尾花資料為例:考慮分類標籤
4.12 再談機率1:展開、折疊
5 離散分佈
5.1 機率分佈:高度理想化的數學模型
5.2 離散均勻分佈:不分厚薄
5.3 伯努利分佈:非黑即白
5.4 二項分佈:巴斯卡三角
5.5 多項分佈:二項分佈推廣
5.6 卜松分佈:建模隨機事件的發生次數
5.7 幾何分佈:滴水穿石
5.8 超幾何分佈:不放回
6 連續隨機變數
6.1 一元連續隨機變數
6.2 期望、方差和標準差
6.3 二元連續隨機變數
6.4 邊緣機率:二元PDF 偏積分
6.5 條件機率:引入貝氏定理
6.6 獨立性:比較條件機率和邊緣機率
6.7 以鳶尾花資料為例:不考慮分類標籤
6.8 以鳶尾花資料為例:考慮分類標籤
7 連續分佈
7.1 連續均勻分佈:離散均勻分佈的連續版
7.2 高斯分佈:最重要的機率分佈,沒有之一
7.3 邏輯分佈:類似高斯分佈
7.4 學生t- 分佈:厚尾分佈
7.5 對數正態分佈:源自正態分佈
7.6 指數分佈:卜松分佈的連續隨機變數版
7.7 卡方分佈:若干IID 標準正態分佈平方和
7.8 F- 分佈:和兩個服從卡方分佈的獨立隨機變數有關
7.9 Beta 分佈:機率的機率
7.10 Dirichlet 分佈:多元Beta 分佈
8 條件機率
8.1 離散隨機變數:條件期望
8.2 離散隨機變數:條件方差
8.3 離散隨機變數的條件期望和條件方差:以鳶尾花為例
8.4 連續隨機變數:條件期望
8.5 連續隨機變數:條件方差
8.6 連續隨機變數:以鳶尾花為例
8.7 再談如何分割「1」
第 3 篇 高斯
9 一元高斯分佈
9.1 一元高斯分佈:期望值決定位置,標準差決定形狀
9.2 累積機率密度:對應機率值
9.3 標準高斯分佈:期望為0,標準差為1
9.4 68-95-99.7 法則
9.5 用一元高斯分佈估計機率密度
9.6 經驗累積分佈函數
9.7 QQ 圖:分位- 分點陣圖
9.8 從距離到一元高斯分佈
10 二元高斯分佈
10.1 二元高斯分佈:看見橢圓
10.2 邊緣分佈:一元高斯分佈
10.3 累積分佈函數:機率值
10.4 用橢圓解剖二元高斯分佈
10.5 聊聊線性相關性係數
10.6 以鳶尾花資料為例:不考慮分類標籤
10.7 以鳶尾花資料為例:考慮分類標籤
11 多元高斯分佈
11.1 矩陣角度:一元、二元、三元到多元
11.2 高斯分佈:橢圓、橢球、超橢球
11.3 解剖多元高斯分佈PDF
11.4 平移→旋轉
11.5 平移→旋轉→縮放
12 條件高斯分佈
12.1 聯合機率和條件機率關係
12.2 給定X 條件下,Y 的條件機率:以二元高斯分佈為例
12.3 給定Y 條件下,X 的條件機率:以二元高斯分佈為例
12.4 多元常態條件分佈:引入矩陣運算
13 協方差矩陣
13.1 計算協方差矩陣:描述資料分佈
13.2 相關性係數矩陣:描述Z 分數分佈
13.3 特徵值分解:找到旋轉、縮放
13.4 SVD 分解:分解資料矩陣
13.5 Cholesky 分解:列向量座標
13.6 距離:歐氏距離vs 馬氏距離
13.7 幾何角度:超橢球、橢球、橢圓
13.8 合併協方差矩陣
第 4 篇 隨機
14 隨機變數的函數
14.1 隨機變數的函數:以鳶尾花為例
14.2 線性變換:投影角度
14.3 單方向投影:以鳶尾花兩特徵為例
14.4 正交系投影:以鳶尾花兩特徵為例
14.5 以橢圓投影為角度看線性變換
14.6 主成分分析:換個角度看資料
15 蒙地卡羅模擬
15.1 蒙地卡羅模擬:基於虛擬亂數發生器
15.2 估算平方根
15.3 估算積分
15.4 估算體積
15.5 估算圓周率
15.6 布豐投針估算圓周率
15.7 接受- 拒絕抽樣法
15.8 二項分佈隨機漫步
15.9 兩個服從高斯分佈的隨機變數相加
15.10 產生滿足特定相關性的隨機數
第 5 篇 頻率派
16 頻率派統計推斷
16.1 統計推斷:兩大學派
16.2 頻率學派的工具
16.3 中心極限定理:漸近於正態分佈
16.4 最大似然:雞兔比例
16.5 最大似然:以估算平均值、方差為例
16.6 區間估計:整體方差已知,平均值估計
16.7 區間估計:整體方差未知,平均值估計
16.8 區間估計:整體平均值未知,方差估計
17 機率密度估計
17.1 機率密度估計:從長條圖說起
17.2 核心密度估計:若干核心函數加權疊合
17.3 頻寬:決定核心函數的高矮胖瘦
17.4 核心函數:八種常見核心函數
17.5 二元KDE:機率密度曲面
第 6 篇 貝氏派
18 貝氏分類
18.1 貝氏定理:分類鳶尾花
18.2 似然機率:給定分類條件下的機率密度
18.3 先驗機率:鳶尾花分類佔比
18.4 聯合機率:可以作為分類標準
18.5 證據因數:和分類無關
18.6 後驗機率:也是分類的依據
18.7 單一特徵分類:基於KDE
18.8 單一特徵分類:基於高斯
19 貝氏分類進階
19.1 似然機率:給定分類條件下的機率密度
19.2 聯合機率:可以作為分類標準
19.3 證據因數:和分類無關
19.4 後驗機率:也是分類的依據
19.5 獨立:不代表條件獨立
19.6 條件獨立:不代表獨立
20 貝氏推斷入門
20.1 貝氏推斷:更貼合人腦思維
20.2 從一元貝氏公式說起
20.3 走地雞兔:比例完全不確定
20.4 走地雞兔:很可能一半一半
20.5 走地雞兔:更一般的情況
21 貝氏推斷進階
21.1 除了雞兔,農場發現了豬
21.2 走地雞兔豬:比例完全不確定
21.3 走地雞兔豬:很可能各1/3
21.4 走地雞兔豬:更一般的情況
22 馬可夫鏈蒙地卡羅
22.1 歸一化因數沒有閉式解?
22.2 雞兔比例:使用PyMC3
22.3 雞兔豬比例:使用PyMC3
第 7 篇 橢圓
23 馬氏距離
23.1 馬氏距離:考慮資料分佈的距離度量
23.2 歐氏距離:最基本的距離
23.3 標準化歐氏距離:兩個角度
23.4 馬氏距離:兩個角度
23.5 馬氏距離和卡方分佈
24 線性迴歸
24.1 再聊線性迴歸
24.2 最小平方法
24.3 最佳化問題
24.4 投影角度
24.5 線性方程組:代數角度
24.6 條件機率
24.7 最大似然估計(MLE)
25 主成分分析
25.1 再聊主成分分析
25.2 原始資料
25.3 特徵值分解協方差矩陣
25.4 投影
25.5 幾何角度看PCA
25.6 奇異值分解
25.7 最佳化問題
25.8 資料還原和誤差
第1篇 統計
1 機率統計全景
1.1 必備數學工具:一個線性代數小測驗
1.2 統計描述
1.3 機率
1.4 高斯
1.5 隨機
1.6 頻率派
1.7 貝氏派
1.8 橢圓三部曲
2 統計描述
2.1 統計兩大工具:描述、推斷
2.2 長條圖:單特徵資料分佈
2.3 散點圖:兩特徵資料分佈
2.4 有標籤資料的統計視覺化
2.5 集中度:平均值、質心
2.6 分散度:極差、方差、標準差
2.7 分位:四分位、百分位等
2.8 箱型圖:小提琴圖、分佈散點圖
2.9 中心距:平均值、方差、偏度、峰度
2.10 多元隨機變數關係:協方差矩陣、相關性係數矩陣
第 2...