使用scikit-learn探索各式機器學習模型,實作多種機器學習演算法
機器學習是近年的熱門話題,它將電腦科學與統計學結合在一起,打造智慧又有效率的模型。你可以使用機器學習提供的強大演算法和技術,來自動化任何分析模型,而scikit-learn正是一個優秀的Python機器學習函式庫,它可以實作多種機器學習演算法,是非常好用的工具。
本書詳細介紹一系列機器學習模型和scikit-learn的使用技巧。從機器學習的基礎理論講起,涵蓋了簡單線性迴歸、KNN演算法、特徵提取、多元線性迴歸、邏輯斯迴歸、單純貝氏、非線性分類、決策樹迴歸、隨機森林、感知器、支援向量機、類神經網路、K-MEANS演算法等重要話題。
本書亦詳細討論資料預處理、超參數最佳化和整體(ensemble)方法。你也將學會使用scikit-learn的API,從分類變數、文本和影像之中提取特徵,一步步建立改善模型效能的專業直覺。
適用讀者
本書適合機器學習領域的工程師,也適合想要了解scikit-learn的資料科學家。
在這本書中,你將學到:
・基本概念簡述,如「偏誤」和「變異數」
・建置能夠分類文件、識別影像及偵測廣告的系統
・使用「線性迴歸」和「KNN」預測連續變數的值
・使用「邏輯斯迴歸」和「支援向量機」對文件和影像進行分類
・使用「裝袋法」和「提升法」建立估計器整體
・使用K-MEANS集群發現資料中的隱藏結構
・在常見任務中評估機器學習系統的效能
【下載範例程式檔案】
本書的程式碼是由GitHub託管,可以在如下網址找到:
https://github.com/PacktPublishing/Mastering-Machine-Learning-with-scikit-learn-Second-Edition
作者簡介:
Gavin Hackeling是一名資料科學家和作家。他研究過各式各樣的機器學習問題,包括自動語音辨識、文件分類、物件辨識以及語義分割。他畢業於北卡羅來納大學和紐約大學。目前他和妻子與愛貓一起生活在布魯克林。
目錄
前言
第1章:機器學習基礎
定義機器學習
從經驗之中學習
機器學習任務
訓練資料、測試資料和驗證資料
偏誤和變異數
scikit-learn簡介
安裝scikit-learn
安裝pandas、Pillow、NLTK和matplotlib
小結
第2章:簡單線性迴歸
簡單線性迴歸
評價模型
小結
第3章:使用KNN演算法分類和迴歸
KNN模型
惰式學習和非參數模型
KNN模型分類
KNN模型迴歸
小結
第4章:特徵提取
從分類變數中提取特徵
特徵標準化
從文本中提取特徵
從影像中提取特徵
小結
第5章:從簡單線性迴歸到多元線性迴歸
多元線性迴歸
多項式迴歸
正規化
應用線性迴歸
梯度下降法
小結
第6章:從線性迴歸到邏輯斯迴歸
使用邏輯斯迴歸進行二元分類
垃圾郵件過濾
使用網格搜尋微調模型
多元分類
多標籤分類和問題轉換
小結
第7章:單純貝氏
貝氏定理
生成模型和判別模型
單純貝氏
在scikit-learn中使用單純貝氏
小結
第8章:非線性分類和決策樹迴歸
決策樹
訓練決策樹
使用scikit-learn建立決策樹
小結
第9章:整體方法:從決策樹到隨機森林
裝袋法
提升法
堆疊法
小結
第10章:感知器
使用感知器進行文件分類
感知器的侷限性
小結
第11章:從感知器到支援向量機
核心與核技巧
最大化分類邊界和支援向量
使用scikit-learn分類字元
小結
第12章:從感知器到類神經網路
非線性決策邊界
前饋式類神經網路和回饋式類神經網路
多層感知器
訓練多層感知器
小結
第13章:K-MEANS演算法
分群
K-MEANS演算法
評估集群
影像量化
透過分群學習特徵
小結
第14章:使用主成分分析降維
主成分分析
使用PCA對高維度資料視覺化
使用PCA進行臉部辨識
小結
前言
第1章:機器學習基礎
定義機器學習
從經驗之中學習
機器學習任務
訓練資料、測試資料和驗證資料
偏誤和變異數
scikit-learn簡介
安裝scikit-learn
安裝pandas、Pillow、NLTK和matplotlib
小結
第2章:簡單線性迴歸
簡單線性迴歸
評價模型
小結
第3章:使用KNN演算法分類和迴歸
KNN模型
惰式學習和非參數模型
KNN模型分類
KNN模型迴歸
小結
第4章:特徵提取
從分類變數中提取特徵
特徵標準化
從文本中提取特徵
從影像中提取特徵
小結
第5章:從簡單線性迴歸到多元線性迴歸
多元線性迴歸
多項式...