章節說明: 序
前言
關於作者
【PART I 基本結構】
chapter 01 資料科學家的角色
1.1 介紹
1.2 資料科學家的角色
1.3 結論
chapter 02 專案工作流程
2.1 介紹
2.2 資料團隊背景
2.3 敏捷開發與產品專注
2.4 結論
chapter 03 誤差量化
3.1 介紹
3.2 量化測量值誤差
3.3 採樣誤差
3.4 誤差傳播
3.5 結論
chapter 04 資料編碼與預處理
4.1 介紹
4.2 簡單文字處理
4.3 資訊損失
4.4 結論
chapter 05 假設檢定
5.1 介紹
5.2 何謂假設?
5.3 誤差類型
5.4 P 值與信賴區間
5.5 多重測試與 "P-hacking"
5.6 範例
5.7 規劃與背景
5.8 結論
chapter 06 資料視覺化
6.1 介紹
6.2 分佈與摘要統計
6.3 時間序列圖
6.4 圖視覺化
6.5 結論
【PART II 演算法與架構】
chapter 07 演算法與架構
7.1 介紹
7.2 架構
7.3 模型
7.4 結論
chapter 08 比較
8.1 介紹
8.2 Jaccard 距離
8.3 MinHash
8.4 Cosine 相似度
8.5 馬氏距離
8.6 結論
chapter 09 迴歸
9.1 介紹
9.2 線性最小平方
9.3 線性迴歸的非線性迴歸
9.4 隨機森林
9.5 結論
chapter 10 分類與群集
10.1 介紹
10.2 邏輯迴歸
10.3 貝葉斯推論,單純貝葉斯
10.4 K 平均
10.5 領先特徵向量
10.6 貪婪 Louvain
10.7 最近鄰居
10.8 結論
chapter 11 貝葉斯網路
11.1 介紹
11.2 因果圖、條件獨立、Markovity
11.3 D 分離與 Markov 性質
11.4 貝葉斯網路因果圖
11.5 模型適配
11.6 結論
chapter 12 降維與潛在變項模型
12.1 介紹
12.2 先驗
12.3 因素分析
12.4 主成分分析
12.5 獨立成分分析
12.6 隱含狄利克雷分布
12.7 結論
chapter 13 因果推論
13.1 介紹
13.2 實驗
13.3 觀察:一個例子
13.4 控制阻斷非因果路徑
13.5 機器學習估計量
13.6 結論
chapter 14 進階機器學習
14.1 介紹
14.2 最佳化
14.3 神經網路
14.4 結論
【PART III 瓶頸與最佳化】
chapter 15 硬體基礎知識
15.1 介紹
15.2 隨機存取記憶體
15.3 非揮發性/固定儲存
15.4 吞吐量
15.5 處理器
15.6 結論
chapter 16 軟體基礎知識
16.1 介紹
16.2 換頁
16.3 編索引
16.4 顆粒度
16.5 強固性
16.6 擷取、轉換、載入
16.7 結論
chapter 17 軟體架構
17.1 介紹
17.2 主從架構
17.3 N 層/服務導向架構
17.4 微服務
17.5 一大塊
17.6 實際案例(混合架構)
17.7 結論
chapter 18 CAP 定理
18.1 介紹
18.2 一致性/同時性
18.3 可用性
18.4 分割容錯
18.5 結論
chapter 19 邏輯網路拓撲節點
19.1 介紹
19.2 網路圖
19.3 負載平衡
19.4 快取
19.5 資料庫
19.6 佇列
19.7 結論
參考書目
索引