有 1 項符合
大數據分析:理論、方法及應用
的圖書
|
|
| 大數據分析:理論、方法及應用
作者:(美)史蒂文·S.斯基納 / 譯者:徐曼
出版社:機械工業出版社
出版日期:2022-04-01
語言:簡體中文 規格:平裝 / 321頁 / 16k/ 19 x 26 x 1.6 cm / 普通級/ 單色印刷 / 1-1
|
圖書介紹 - 資料來源:博客來 目前評分: 評分:
圖書名稱:大數據分析:理論、方法及應用 內容簡介
本書由演算法領域的知名專家Steven Skiena教授撰寫,重點介紹了收集、分析和解釋資料所需的技能和原理。作者由淺入深地介紹了資料科學的概念、所需的數學基礎、資料的整理清洗方法、資料分析方法(統計分析、視覺化、數學模型、線性邏輯回歸、機器學習演算法等)以及學 資料分析的意義。
作者結合應用領域的大量資料分析案例,以解釋大資料分析所需技能與原理,幫助者快速理解和掌握大資料分析的理論與方法,也將這些技能的實際應用方式展現得淋漓盡致,具有很強的可操作性。
目錄
譯者序
前言
第1章什麼是資料科學1
1.1電腦科學、資料科學和真正的科學1
1.2從資料中提出有趣的問題3
1.2.1棒球百科全書3
1.2.2互聯網電影資料庫6
1.2.3GoogleNgrams7
1.2.4紐約計程車記錄9
1.3資料的屬性11
1.3.1結構化與非結構化資料11
1.3.2定量資料與類別資料11
1.3.3大資料與小資料12
1.4分類與回歸12
1.5關於資料科學的電視節目:TheQuantShop13
1.6關於實戰故事15
1.7實戰故事:回答正確的問題16
1.8章節注釋17
1.9練習17
第2章數學基礎20
2.1概率20
2.1.1概率與統計21
2.1.2複合事件與獨立事件22
2.1.3條件概率23
2.1.4概率分佈23
2.2描述性統計25
2.2.1中心性度量25
2.2.2變異性度量26
2.2.3解釋方差27
2.2.4描述分佈29
2.3相關性分析29
2.3.1相關係數:皮爾遜和斯皮爾曼秩30
2.3.2相關的強弱與顯著性31
2.3.3相關性並不意味著因果關係33
2.3.4用自相關檢測週期性34
2.4對數35
2.4.1對數與乘法概率35
2.4.2對數和比率35
2.4.3對數與正規化偏態分佈36
2.5實戰故事:契合設計師基因37
2.6章節注釋39
2.7練習39
第3章資料整理42
3.1資料科學語言42
3.1.1notebook環境的重要性44
3.1.2標準資料格式45
3.2資料收集47
3.2.1搜索47
3.2.2爬取49
3.2.3網路日誌50
3.3數據清洗50
3.3.1錯誤與偽影51
3.3.2數據相容性52
3.3.3處理缺失值56
3.3.4離群值檢測57
3.4實戰故事:打敗市場58
3.5眾包59
3.5.1一便士的實驗59
3.5.2什麼時候有群體智慧60
3.5.3聚合機制61
3.5.4眾包服務62
3.5.5遊戲化65
3.6章節注釋66
3.7練習66
第4章得分和排名69
4.1體重指數70
4.2開發評分系統72
4.2.1黃金標準和代理72
4.2.2排名與得分72
4.2.3識別良好的評分函數74
4.3Z得分和歸一化75
4.4排名技術76
4.4.1Elo排名76
4.4.2合併排名78
4.4.3基於有向圖的排名80
4.4.4PageRank80
4.5實戰故事:Clyde的復仇81
4.6阿羅不可能性定理83
4.7實戰故事:誰大84
4.8章節注釋87
4.9練習87
第5章統計分析89
5.1統計分佈90
5.1.1二項分佈90
5.1.2正態分佈91
5.1.3正態分佈的含義93
5.1.4泊松分佈93
5.1.5冪律分佈95
5.2從分佈中採樣97
5.3統計顯著性99
5.3.1顯著性的意義100
5.3.2t檢驗:比較總體均值101
5.3.3Kolmogorov-Smirnov檢驗102
5.3.4Bonferroni校正104
5.3.5錯誤發現率104
5.4實戰故事:發現青春之泉105
5.5置換檢驗與p值106
5.5.1產生隨機排列108
5.5.2迪馬吉奧的連勝紀錄109
5.6貝葉斯定理110
5.7章節注釋111
5.8練習111
第6章數據視覺化114
6.1探索性資料分析115
6.1.1面對新的資料集115
6.1.2匯總統計量和Anscombe四重線117
6.1.3視覺化工具119
6.2發展視覺化美學119
6.2.1化數據墨水比率120
6.2.2小化謊言因數121
6.2.3限度地減少圖表垃圾122
6.2.4恰當的縮放和標注123
6.2.5有效使用顏色和陰影124
6.2.6重複的力量125
6.3圖表類型125
6.3.1表格資料127
6.3.2點狀圖和折線圖128
6.3.3散點圖131
6.3.4橫條圖和圓形圖133
6.3.5長條圖135
6.3.6資料地圖137
6.4出色的視覺化139
6.4.1Marey的火車時刻表139
6.4.2斯諾的霍亂地圖140
6.4.3紐約氣象年141
6.5讀圖141
6.5.1模糊分佈141
6.5.2過度解釋方差142
6.6互動式視覺化143
6.7實戰故事:TextMap144
6.8章節注釋146
6.9練習146
第7章數學模型149
7.1建模哲學149
7.1.1奧卡姆剃刀原理149
7.1.2權衡偏差與方差150
7.1.3NateSilver會怎麼做150
7.2模型分類152
7.2.1線性模型與非線性模型152
7.2.2黑盒與描述性模型152
7.2.3原理與資料驅動模型153
7.2.4隨機模型與確定性模型154
7.2.5平面模型與分層模型155
7.3基準模型155
7.3.1分類的基準模型155
7.3.2價值預測的基準模型156
7.4評估模型157
7.4.1評估分類器158
7.4.2受試者工作特徵曲線161
7.4.3評估多類系統162
7.4.4評估價值預測模型164
7.5評估環境165
7.5.1資料衛生評估167
7.5.2放大小型評估集167
7.6實戰故事:準確169
7.7類比模型170
7.8實戰故事:經過計算的賭注170
7.9章節注釋173
7.10練習173
第8章線性代數176
8.1線性代數的作用176
8.1.1解釋線性代數公式177
8.1.2幾何和向量178
8.2矩陣運算視覺化179
8.2.1矩陣加法179
8.2.2矩陣乘法180
8.2.3矩陣乘法的應用181
8.2.4單位矩陣與求逆184
8.2.5矩陣求逆與線性系統185
8.2.6矩陣的秩186
8.3因式分解矩陣187
8.3.1為什麼是因數特徵矩陣187
8.3.2LU分解與行列式188
8.4特徵值和特徵向量189
8.4.1特徵值的性質189
8.4.2計算特徵值189
8.5特徵值分解190
8.5.1奇異值分解191
8.5.2主成分分析193
8.6實戰故事:人的因素193
8.7章節注釋195
8.8練習195
第9章線性回歸和logistic回歸197
9.1線性回歸197
9.1.1線性回歸與對偶198
9.1.2線性回歸誤差199
9.1.3尋找擬合199
9.2好的回歸模型200
9.2.1刪除離群值200
9.2.2擬合非線性函數201
9.2.3特徵和目標縮放202
9.2.4處理高度相關的特徵204
9.3實戰故事:計程車司機204
9.4參數擬合回歸205
9.4.1凸參數空間206
9.4.2梯度下降法207
9.4.3什麼是正確的學習速率208
9.4.4隨機梯度下降法210
9.5通過正則化簡化模型210
9.5.1嶺回歸211
9.5.2LASSO回歸211
9.5.3擬合與複雜性的權衡212
9.6分類與logistic回歸212
9.6.1分類回歸213
9.6.2決策邊界214
9.6.3logistic回歸214
9.7logistic分類中的幾個問題216
9.7.1均衡訓練分類216
9.7.2多類分類218
9.7.3分層分類219
9.7.4分拆函數與多項式回歸220
9.8章節注釋220
9.9練習220
第10章距離和網路方法222
10.1測量距離222
10.1.1距離度量222
10.1.2距離度量223
10.1.3在高維度上工作224
10.1.4維度平均225
10.1.5點與向量226
10.1.6概率分佈之間的距離226
10.2近鄰分類227
10.2.1尋找好的類比228
10.2.2k近鄰法229
10.2.3發現近鄰230
10.2.4局部敏感雜湊231
10.3圖、網路和距離232
10.3.1加權圖與誘導網路233
10.3.2對圖的討論234
10.3.3圖論236
10.4PageRank236
10.5聚類239
10.5.1k均值聚類241
10.5.2凝聚聚類244
10.5.3比較聚類248
10.5.4相似度圖和基於切割的聚類248
10.6實戰故事:集群轟炸250
10.7章節注釋251
10.8練習251
第11章機器學習254
11.1樸素貝葉斯256
11.1.1公式256
11.1.2處理零計數()257
11.2決策樹分類258
11.2.1構建決策樹260
11.2.2實現異或261
11.2.3決策樹集合261
11.3Boosting和集成學習262
11.3.1用分類器投票262
11.3.2Boosting演算法263
11.4支持向量機265
11.4.1線性支援向量機266
11.4.2非線性支援向量機267
11.4.3核函數268
11.5監督程度268
11.5.1監督學習269
11.5.2無監督學習269
11.5.3半監督學習270
11.5.4特徵工程271
11.6深度學習272
11.6.1網路和深度273
11.6.2反向傳播275
11.6.3文字和圖形的嵌入276
11.7實戰故事:名字遊戲277
11.8章節注釋279
11.9練習280
第12章大數據:實現規模282
12.1大數據是什麼282
12.1.1作為壞資料的大資料283
12.1.23個V284
12.2實戰故事:基礎設施問題285
12.3大資料演算法286
12.3.1大O分析286
12.3.2雜湊287
12.3.3利用存儲層次結構289
12.3.4流式和單通道演算法290
12.4過濾和抽樣291
12.4.1確定性抽樣演算法291
12.4.2隨機抽樣和流抽樣292
12.5並行293
12.5.1一、二、多293
12.5.2資料並行294
12.5.3網格搜索295
12.5.4雲計算服務295
12.6MapReduce296
12.6.1MapReduce程式設計296
12.6.2MapReduce的工作原理298
12.7社會和倫理影響299
12.8章節注釋301
12.9習題301
第13章結尾303
13.1找份工作303
13.2到研究生院去304
13.3專業諮詢服務304
參考文獻305
索引311
詳細資料
- ISBN:9787111703471
- 規格:平裝 / 321頁 / 16k / 19 x 26 x 1.6 cm / 普通級 / 單色印刷 / 1-1
- 出版地:中國
|
|
|
| 作者:王怡仁 出版社:賽斯文化 出版日期:2017-05-01 66折: $ 726 | | 作者:許添盛 出版社:賽斯文化 出版日期:2020-12-11 66折: $ 660 | | 作者:陳嘉珍 出版社:賽斯文化 出版日期:2017-05-01 66折: $ 211 | | 作者:許添盛醫師主講 出版社:賽斯文化 出版日期:2019-05-06 66折: $ 660 | |
|
| 作者:gusao(945) 出版社:平心出版(欣燦連) 出版日期:2025-01-16 $ 1180 | | 作者:金泰(Tae Kim) 出版社:商業周刊 出版日期:2025-01-03 $ 355 | | 作者:尼克.馬朱利 (Nick Maggiulli) 出版社:商業周刊 出版日期:2023-05-30 $ 316 | | 作者:大衛.JP.菲利浦斯 出版社:平安文化有限公司 出版日期:2024-12-30 $ 284 | |
|
| 作者:甘詰留太 出版社:青文出版社股份有限公司 出版日期:2025-01-20 $ 111 | | 作者:横槍メンゴ 出版社:青文出版社股份有限公司 出版日期:2025-01-08 $ 111 | | 作者:甘詰留太 出版社:青文出版社股份有限公司 出版日期:2025-01-20 $ 111 | | 作者:大衛.JP.菲利浦斯 出版社:平安文化 出版日期:2024-12-30 $ 284 | |
|
|
|
|