大數據解析與應用導論-FindBook 找書網 ISBN:9787122409966

內容簡介

信息時代，大數據的應用無處不在。手機中“淘寶”“抖音”的商品推送、短視頻內容推送背後，是大數據使用者畫像及演算法；道路上的“一路綠燈”背後，是智慧交通——交通管理部門分析、調整交通情況；新冠肺炎疫情不漏一人的流調背後，是智慧“戰疫”——有關部門以“大數據+網格化”的方式識別和挖掘目標人群遷徙軌跡；智慧電廠“一鍵啟停、無人值守”的背後，是以大數據為基礎的工業級智慧化應用。

本書從大數據解析的基本概念講起，“庖丁解牛”式地為大家講解大數據解析中常用的基礎演算法，介紹不同演算法的基本原理和適用場合，揭開大數據解析的神秘面紗。“紙上得來終覺淺，知此事要躬行。”本書結合研究實例，以問題為導向，深入淺出，引導大家“根據釘子選擇錘子”，領略大數據的魅力。本書是數據分析及相關課程的教學用書，適用於高等院校自動化、數據科學與大數據技術、人工智慧等涉及數據挖掘相關的專業的本科生。

1緒論1
1.1統計學基礎1
1.1.1期望、方差、協方差1
1.1.2一元高斯分佈3
1.1.3多元高斯分佈3
1.1.4KL散度4
1.2人工智慧簡介4
1.2.1人工智慧的概念5
1.2.2人工智慧的發展5
1.2.3人工智慧的學派7
1.3機器學習7
1.3.1基本概念8
1.3.2機器學習的範式8
1.3.3機器學習的三要素9
1.3.4過擬合與正則化11
1.3.5偏差與方差12
1.4深度學習14
1.4.1生物神經網路14
1.4.2人工神經網路15
1.4.3主流的深度學習框架16
本章小結17
習題117
參考文獻18

2數據預處理與特徵工程20
2.1數據預處理20
2.1.1數據清洗21
2.1.2數據變換24
2.2特徵工程27
2.2.1特徵提取27
2.2.2特徵選擇27
2.3應用實例30
2.3.1數據集簡介與環境準備30
2.3.2數據集導入與欄位理解31
2.3.3缺失值處理31
2.3.4異常值處理32
2.3.5數據變換33
2.3.6特徵工程34
2.3.7案例小結34
本章小結34
習題235
參考文獻36

3數據降維37
3.1數據降維簡介37
3.2主成分分析演算法38
3.2.1主成分分析演算法簡介38
3.2.2主成分分析的數學原理38
3.2.3主成分分析的直觀理解40
3.3慢特徵分析演算法41
3.3.1慢特徵分析演算法簡介41
3.3.2慢特徵分析的數學原理41
3.3.3慢特徵分析的直觀理解43
3.4應用實例44
3.4.1主成分分析的數值示例44
3.4.2主成分分析的應用示例45
本章小結47
習題347
參考文獻48

4回歸分析50
4.1回歸分析基本概念50
4.1.1回歸的起源50
4.1.2回歸模型的建立及應用51
4.1.3回歸模型分類52
4.1.4回歸模型效果評估52
4.2 小二乘回歸53
4.2.1 小二乘法擬合目標53
4.2.2 小二乘回歸原理54
4.2.3 小二乘法的幾何意義56
4.2.4 小二乘法的缺陷57
4.3嶺回歸與LASSO回歸57
4.3.1嶺回歸演算法58
4.3.2LASSO回歸演算法61
4.3.3線性回歸模型的正則化項63
4.4主元回歸64
4.4.1維數災難64
4.4.2主元回歸建模65
4.4.3主成分個數選取65
4.4.4主元回歸與嶺回歸66
4.5偏小二乘回歸66
4.5.1偏小二乘建模67
4.5.2目標函數與演算法推導67
4.5.3潛變數個數確定69
4.6回歸案例分析70
本章小結72
習題472
參考文獻73

5聚類分析75
5.1基本思想與概念75
5.1.1聚類的概念75
5.1.2聚類演算法分類76
5.2相似性度量77
5.2.1相似性度量的基本概念77
5.2.2距離度量77
5.2.3相關係數81
5.2.4選擇相似性衡量手段的原則82
5.3K-均值聚類演算法簡介83
5.3.1演算法思想83
5.3.2演算法流程84
5.3.3演算法關鍵影響因素85
5.3.4演算法應用：圖像壓縮86
5.4高斯混合模型簡介87
5.4.1演算法介紹87
5.4.2利用GMM演算法進行聚類88
5.4.3演算法示例88
本章小結91
習題591
參考文獻92

6判別分析93
6.1基本理論93
6.1.1判別的基本概念93
6.1.2判別的效果評估94
6.2距離判別94
6.3貝葉斯判別95
6.3.1貝葉斯的統計思想96
6.3.2貝葉斯小錯誤率判別96
6.3.3貝葉斯小風險判別97
6.3.4先驗概率的選取97
6.3.5多總體貝葉斯判別準則98
6.3.6多總體貝葉斯判別函數98
6.4Fisher判別100
6.4.1Fisher判別的基本思想100
6.4.2Fisher判別的優化目標100
6.4.3多分類問題101
6.4.4Fisher判別的分析步驟102
6.4.5案例分析103
本章小結104
習題6104
參考文獻105

7支持向量機107
7.1線性可分支援向量機107
7.1.1線性可分的概念107
7.1.2間隔化108
7.1.3支持向量機求解109
7.2軟間隔支持向量機111
7.3非線性支援向量機112
7.4支持向量回歸114
7.5支援向量機實例116
7.5.1線性可分支援向量機實例116
7.5.2非線性支援向量機實例117
本章小結118
習題7118
參考文獻119

8典型相關分析120
8.1基本概念120
8.1.1CCA的歷史及用途120
8.1.2CCA的思想121
8.1.3CCA的擴展方法122
8.2典型相關分析演算法介紹122
8.3CCA演算法拓展125
8.3.1多視角CCA125
8.3.2核CCA127
8.3.3深度CCA128
8.3.4判別CCA128
8.3.5局部保留CCA130
8.4典型相關分析案例分析130
8.4.1案例一：城市競爭力分析130
8.4.2案例二：多標籤分類132
本章小結134
習題8135
參考文獻136

9決策樹與隨機森林138
9.1決策樹基本內容138
9.2決策樹演算法介紹139
9.2.1資訊熵和資訊增益140
9.2.2剪枝演算法142
9.3隨機森林介紹143
9.4應用實例145
9.4.1Python實現決策樹145
9.4.2Python實現隨機森林146
本章小結148
習題9149
參考文獻150

10神經網路151
10.1基本概念151
10.1.1基本結構——神經元模型151
10.1.2感知機152
10.1.3多層前饋神經網路153
10.1.4啟動函數153
10.1.5誤差反向傳播演算法155
10.2深度神經網路157
10.2.1模型優化方法157
10.2.2參數初始化160
10.2.3數據預處理161
10.2.4防止過擬合162
10.2.5數據增強162
10.3寬度學習（BLS）簡介163
10.3.1BLS產生背景163
10.3.2RVFLNN簡介164
10.3.3BLS演算法介紹164
10.3.4BLS實際應用案例168
本章小結169
習題10169
參考文獻170

11卷積神經網路172
11.1卷積神經網路基礎172
11.1.1卷積172
11.1.2池化（pooling）174
11.1.3卷積神經網路的優點175
11.1.4LeNet176
11.2卷積網路進階與實例178
11.2.1特殊的卷積核178
11.2.2卷積網路實例181
本章小結185
習題11185
參考文獻186

12迴圈神經網路187
12.1迴圈神經網路基礎187
12.1.1RNN的用途187
12.1.2RNN的結構及工作方式188
12.1.3LSTM的結構及計算方式189
12.2迴圈神經網路進階191
12.2.1殘差迴圈神經網路191
12.2.2門控迴圈單元GRU192
12.2.3雙向迴圈神經網路193
12.2.4堆疊迴圈神經網路194
本章小結194
習題12195
參考文獻196

13自編碼器197
13.1自編碼器簡介197
13.1.1回顧：監督學習、半監督學習、無監督學習197
13.1.2生成模型與判別模型198
13.1.3自編碼器的公式化表述199
13.1.4關於自編碼器的討論199
13.1.5常見的自編碼器變體200
13.2稀疏自編碼器201
13.2.1稀疏自編碼器結構201
13.2.2堆疊自編碼器結構203
13.2.3堆疊稀疏自編碼器206
13.3去噪自編碼器206
13.3.1原理介紹206
13.3.2訓練過程207
13.3.3堆疊去噪自編碼器208
13.3.4稀疏去噪自編碼器209
13.3.5流形學習角度看去噪自編碼器210
13.3.6小結211
13.4變分自編碼器211
13.4.1變分自編碼器的引出212
13.4.2變分自編碼器的推導212
13.4.3變分自編碼器的網路結構214
13.4.4變分自編碼器的實例214
13.4.5變分自編碼器的拓展216
13.4.6小結217
本章小結217
習題13217
參考文獻219

14集成學習221
14.1集成學習簡介221
14.1.1基本概念與模型結合策略221
14.1.2小結225
14.2集成學習：Bagging225
14.2.1演算法簡介225
14.2.2Bagging演算法的自助採樣226
14.2.3Bagging演算法的結合策略227
14.2.4偏差與方差分析230
14.3集成學習：Boosting233
14.3.1演算法簡介233
14.3.2AdaBoost234
14.3.3GBDT238
14.4應用實例240
14.4.1Bagging實例：Random Forest240
14.4.2Boosting實例：AdaBoost244
本章小結245
習題14246
參考文獻247

15案例分析249
15.1二手車交易價格預測249
15.1.1案例背景249
15.1.2數據概覽與評測標準249
15.1.3整體思路251
15.1.4數據分析與預處理251
15.1.5特徵工程與特徵篩選253
15.1.6平均值編碼253
15.1.7數據建模與融合255
15.1.8小結256
15.2糖尿病的血糖預測256
15.2.1背景介紹257
15.2.2數據獲取257
15.2.3數據預處理257
15.2.4演算法與實驗結果259
15.2.5小結263
15.3工業蒸汽量預測263
15.3.1數據集介紹263
15.3.2數據清洗與特徵工程263
15.3.3基本回歸模型訓練與分析264
15.3.4XGBoost模型訓練與結果分析266
15.3.5小結268
15.4雙盲降噪自編碼器實現降噪268
15.4.1軟測量任務需求268
15.4.2問題分析269
15.4.3去噪演算法概述270
15.4.4雙盲降噪自編碼器271
15.4.5DBDAE降噪與軟測量272
15.4.6小結276
15.5心率異常檢測276
15.5.1心電圖數據277
15.5.2基於殘差神經網路的心電診斷277
15.5.3基於知識+特徵工程的心電診斷279
15.5.4小結284
本章小結284
習題15284
參考文獻286

看更多

詳細資料

ISBN：9787122409966
規格：平裝 / 286頁 / 16k / 19 x 26 x 1.43 cm / 普通級 / 單色印刷 / 1-1
出版地：中國

大數據解析與應用導論

內容簡介

目錄

詳細資料