前言
機器學習實際上已經存在了幾十年,或也可以認為存在了幾個世紀。追溯到 17 世紀,貝氏、拉普拉斯關於最小平方法的推導和馬可夫鏈,這些組成了機器學習廣泛使用的工具和基礎。從 1950 年艾倫.圖靈提議架設一個學習機器開始,到 2000 年年初深度學習的實際應用以及最近的進展,比如2012 年的AlexNet,機器學習有了很大的發展。
scikit-learn 專案最早由資料科學家 David Cournapeau 在 2007 年發起,需要 NumPy 和 SciPy 等其他套件的支援,它是 Python 語言中專門針對機器學習應用而發展起來的一款開放原始碼框架。
機器學習是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。它專門研究電腦怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構並使之不斷改善自身的性能。它是人工智慧的核心,即使計算機具有智慧的根本途徑。
本書針對機器學習這個領域,描述了多種學習模型、策略、演算法、理論以及應用,基於 Python3 使用 scikit-learn 工具套件演示演算法解決實際問題的過程。對機器學習感興趣的讀者可透過本書快速入門,快速勝任機器學習職位,成為人工智慧時代的人才。
■ 讀者需要了解的重要資訊
本書作為機器學習專業圖書,介紹機器學習的基本概念、演算法流程、模型建構、資料訓練、模型評估與最佳化、必備工具和實現方法,全程以真實案例驅動,案例採用 Python3 實現。本書涵蓋資料獲得、演算法模型、案例程式實現和結果展示的全過程,以機器學習的經典演算法為軸線:演算法分析→資料獲取→模型建構→推斷→演算法評估。本書案例具有代表性,結合了理論與實踐,並能明確機器學習的目標及完成效果。
■ 本書內容
本書共分 13 章,系統講解機器學習的典型演算法,內容包括機器學習概述、資料特徵提取、scikit-learn 估計器分類、單純貝氏分類、線性回歸、k 近鄰演算法分類和回歸、從簡單線性回歸到多元線性回歸、從線性回歸到邏輯回歸、非線性分類和決策樹回歸、從決策樹到隨機森林、從感知機到支援向量機、從感知機到類神經網路、主成分分析降維。
本書的例子都是在 Python3 整合式開發環境 Anaconda3 中經過實際偵錯透過的典型案例,同時本書配備了案例的原始程式和資料集供讀者參考。
■ 書附資源下載
本書配套的案例原始程式,請至本公司官網下載。
■ 本書讀者
本書適合巨量資料分析與挖掘、機器學習與人工智慧技術的初學者、研究人員及從業人員,也適合作為大專院校和教育訓練機構巨量資料、機器學習與人工智慧相關專業的師生教學參考。
■ 致謝
本書完成之際,感謝合作者與清華大學出版社各位老師的支援。作者夜以繼日用了近一年的時間寫作,並不斷修正錯誤和完善知識結構。由於作者水準有限,書中有紕漏之處還請讀者不吝賜教。本書寫作過程中參考的圖書與網路資源都在參考文獻中舉出了出處。
鄧立國