★ ML 最強套件 scikit-learn ✕ 經典演算法,帶領你徹底攻略所有 ML 必備理論與實踐技能!
【本書內容】
機器學習是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。其研究電腦模擬或實現人類的學習行為,獲取新的知識,重新組合現有知識結構並改善自身的效能。
本書針對機器學習領域描述了多個學習模型、策略、演算法、理論以及應用,以 Python 3 為基礎,使用 scikit-learn 解決實際問題。
全書完整介紹機器學習基本概念、演算法流程、模型建構、資料訓練、模型評估與最佳化、必備工具和實現方法,並佐以實際案例,以機器學習的經典演算法為軸線:演算法分析 ▶ 資料獲取 ▶ 模型建構 ▶ 推斷 ▶ 演算法評估,讓你理論與實踐技能一次學會,輕易上手。
【本書特色】
ML 的最佳參考書,scikit-learn 的最紮實實戰應用,亦為深入 AI 技術的優良基礎!
● 機器學習概述
● 資料特徵提取
● scikit-learn 估計器分類
● 單純貝氏分類
● 簡單線性迴歸到多元線性迴歸
● k 近鄰演算法分類
● 線性迴歸到邏輯迴歸
● 非線性分類與決策樹迴歸
● 決策樹到隨機森林
● 感知機到支持向量機
● 從感知機到類神經網路
● 主成分分析降維
作者簡介:
鄧立國
東北大學計算機應用博士畢業。廣東工業大學任教,主要研究方向:數據挖掘、知識工程、大數據處理、雲計算、分佈式計算等。著有圖書《scikit-learn 機器學習實戰》、《Python 數據分析與挖掘實戰》、《Python 大數據分析算法與實例》、《Python 機器學習算法與應用》、《數據庫原理與應用(SQL Server 2016 版本)》等圖書。
作者序
【前言】
機器學習實際上已經存在了幾十年,或也可以認為存在了幾個世紀。追溯到 17 世紀,貝氏、拉普拉斯關於最小平方法的推導和馬可夫鏈,這些組成了機器學習廣泛使用的工具和基礎。從 1950 年艾倫.圖靈提議架設一個學習機器開始,到 2000 年年初深度學習的實際應用以及最近的進展,比如2012 年的AlexNet,機器學習有了很大的發展。
scikit-learn 專案最早由資料科學家 David Cournapeau 在 2007 年發起,需要 NumPy 和 SciPy 等其他套件的支援,它是 Python 語言中專門針對機器學習應用而發展起來的一款開放原始碼框架。
機器學習是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。它專門研究電腦怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構並使之不斷改善自身的性能。它是人工智慧的核心,即使計算機具有智慧的根本途徑。
本書針對機器學習這個領域,描述了多種學習模型、策略、演算法、理論以及應用,基於 Python3 使用 scikit-learn 工具套件演示演算法解決實際問題的過程。對機器學習感興趣的讀者可透過本書快速入門,快速勝任機器學習職位,成為人工智慧時代的人才。
■ 讀者需要了解的重要資訊
本書作為機器學習專業圖書,介紹機器學習的基本概念、演算法流程、模型建構、資料訓練、模型評估與最佳化、必備工具和實現方法,全程以真實案例驅動,案例採用 Python3 實現。本書涵蓋資料獲得、演算法模型、案例程式實現和結果展示的全過程,以機器學習的經典演算法為軸線:演算法分析→資料獲取→模型建構→推斷→演算法評估。本書案例具有代表性,結合了理論與實踐,並能明確機器學習的目標及完成效果。
■ 本書內容
本書共分 13 章,系統講解機器學習的典型演算法,內容包括機器學習概述、資料特徵提取、scikit-learn 估計器分類、單純貝氏分類、線性回歸、k 近鄰演算法分類和回歸、從簡單線性回歸到多元線性回歸、從線性回歸到邏輯回歸、非線性分類和決策樹回歸、從決策樹到隨機森林、從感知機到支援向量機、從感知機到類神經網路、主成分分析降維。
本書的例子都是在 Python3 整合式開發環境 Anaconda3 中經過實際偵錯透過的典型案例,同時本書配備了案例的原始程式和資料集供讀者參考。
■ 書附資源下載
本書配套的案例原始程式,請至本公司官網下載。
■ 本書讀者
本書適合巨量資料分析與挖掘、機器學習與人工智慧技術的初學者、研究人員及從業人員,也適合作為大專院校和教育訓練機構巨量資料、機器學習與人工智慧相關專業的師生教學參考。
■ 致謝
本書完成之際,感謝合作者與清華大學出版社各位老師的支援。作者夜以繼日用了近一年的時間寫作,並不斷修正錯誤和完善知識結構。由於作者水準有限,書中有紕漏之處還請讀者不吝賜教。本書寫作過程中參考的圖書與網路資源都在參考文獻中舉出了出處。
鄧立國
【前言】
機器學習實際上已經存在了幾十年,或也可以認為存在了幾個世紀。追溯到 17 世紀,貝氏、拉普拉斯關於最小平方法的推導和馬可夫鏈,這些組成了機器學習廣泛使用的工具和基礎。從 1950 年艾倫.圖靈提議架設一個學習機器開始,到 2000 年年初深度學習的實際應用以及最近的進展,比如2012 年的AlexNet,機器學習有了很大的發展。
scikit-learn 專案最早由資料科學家 David Cournapeau 在 2007 年發起,需要 NumPy 和 SciPy 等其他套件的支援,它是 Python 語言中專門針對機器學習應用而發展起來的一款開放原始碼框架。
機器學...
目錄
01 機器學習概述
1.1 什麼是機器學習
1.2 機器學習的作用領域
1.3 機器學習的分類
1.4 機器學習理論基礎
1.5 機器學習應用程式開發的典型步驟
1.6 本章小結
1.7 複習題
02 機器學習之資料特徵
2.1 資料的分佈特徵
2.2 資料的相關性
2.3 資料的聚類性
2.4 資料主成分分析
2.5 資料動態性及其分析模型
2.6 資料視覺化
2.7 本章小結
2.8 複習題
03 用scikit-learn 估計器分類
3.1 scikit-learn 基礎
3.2 scikit-learn 估計器
3.3 本章小結
3.4 複習題
04 單純貝氏分類
4.1 演算法原理
4.2 單純貝氏分類
4.3 單純貝氏分類實例
4.4 單純貝氏連續值的處理
4.5 本章小結
4.6 複習題
05 線性回歸
5.1 簡單線性回歸模型
5.2 分割資料集
5.3 用簡單線性回歸模型預測考試成績
5.4 本章小結
5.5 複習題
06 用 k 近鄰演算法分類和回歸
6.1 k 近鄰演算法模型
6.2 用 k 近鄰演算法處理分類問題
6.3 用 k 近鄰演算法對鳶尾花進行分類
6.4 用 k 近鄰演算法進行回歸擬合
6.5 本章小結
6.6 複習題
07 從簡單線性回歸到多元線性回歸
7.1 多變數的線性模型
7.2 模型的最佳化
7.3 用多元線性回歸模型預測波士頓房價
7.4 本章小結
7.5 複習題
08 從線性回歸到邏輯回歸
8.1 邏輯回歸模型
8.2 多元分類問題
8.3 正則化項
8.4 模型最佳化
8.5 用邏輯回歸演算法處理二分類問題
8.6 辨識手寫數字的多元分類問題
8.7 本章小結
8.8 複習題
09 非線性分類和決策樹回歸
9.1 決策樹的特點
9.2 決策樹分類
9.3 決策樹回歸
9.4 決策樹的複雜度及使用技巧
9.5 決策樹演算法:ID3、C4.5 和CART
9.6 本章小結
9.7 複習題
10 整合方法:從決策樹到隨機森林
10.1 Bagging 元估計器
10.2 由隨機樹組成的森林
10.3 AdaBoost
10.4 梯度提升回歸樹
10.5 本章小結
10.6 複習題
11 從感知機到支援向量機
11.1 線性支援向量機分類
11.2 非線性支援向量機分類
11.3 支援向量機回歸
11.4 本章小結
11.5 複習題
12 從感知機到類神經網路
12.1 從神經元到類神經元
12.2 感知機
12.3 多層感知機
12.4 本章小結
12.5 複習題
13 主成分分析降維
13.1 資料的向量表示及降維問題
13.2 向量的表示及基變換
13.3 協方差矩陣及最佳化目標
13.4 PCA 演算法流程
13.5 PCA 實例
13.6 scikit-learn PCA 降維實例
13.7 核心主成分分析KPCA 簡介
13.8 本章小結
13.9 複習題
A 參考文獻
01 機器學習概述
1.1 什麼是機器學習
1.2 機器學習的作用領域
1.3 機器學習的分類
1.4 機器學習理論基礎
1.5 機器學習應用程式開發的典型步驟
1.6 本章小結
1.7 複習題
02 機器學習之資料特徵
2.1 資料的分佈特徵
2.2 資料的相關性
2.3 資料的聚類性
2.4 資料主成分分析
2.5 資料動態性及其分析模型
2.6 資料視覺化
2.7 本章小結
2.8 複習題
03 用scikit-learn 估計器分類
3.1 scikit-learn 基礎
3.2 scikit-learn 估計器
3.3 本章小結
3.4 複習題
04 單純貝氏分類
4.1 演算法原理
4.2 單純貝氏分類
4.3 單...