從資料集識別獨一無二的特徵,
建構功能強大的機器學習系統!
特徵工程(Feature Engineering)是建立強大機器學習系統的首要步驟,也是最重要的步驟。特徵選擇錯誤,甚至可能使得某些機器學習演算法毫無用處。故而特徵工程可說是機器學習的重中之重。本書將帶你了解特徵工程的完整流程,讓機器學習更有系統、更有效率。
你將從理解資料(data)開始學習。機器學習模型的成功之處,正是取決於如何利用不同類型的特徵,例如:連續特徵、分類特徵等等。透過理解錯誤分析和模型的可接受性,你將了解何時該納入一項特徵、何時又該忽略一項特徵,以及其中的原因。你還會學習如何將問題陳述轉換為有用的新特徵、如何提供由商業需求和數學見解驅動的特徵,以及如何在自己的機器上進行機器學習,進而自動學習資料中的特徵。
適用讀者
本書適合所有希望全面了解特徵工程的讀者,特別適合具有機器學習應用知識並希望改進機器學習模型結果的資料科學家。讀完這本書,讀者將能精通特徵選擇、特徵學習和特徵最佳化!
在這本書中,你將學到:
・ 識別和利用不同類型的特徵
・ 清洗資料中的特徵,提升預測能力
・ 了解為何以及如何進行特徵選擇和模型誤差分析
・ 利用領域知識建構新特徵
・ 以數學知識為基礎並交付特徵
・ 使用機器學習演算法建構特徵
・ 精通特徵工程與特徵最佳化
・ 在真實世界的應用程式中利用特徵工程
【下載範例程式檔案】
本書的程式碼是由GitHub託管,可以在如下網址找到:https://github.com/PacktPublishing/Feature-Engineering-Made-Easy。
【下載本書的彩色圖片】
我們還提供您一個PDF檔案,其中包含本書使用的彩色圖表,可以在此下載:https://www.packtpub.com/sites/default/files/downloads/FeatureEngineeringMadeEasy_ColorImages.pdf。
作者簡介:
Sinan Ozdemir是生活在舊金山灣區的資料科學家、新創公司創辦人和教育家。 他曾在約翰霍普金斯大學(Johns Hopkins University)學習純數學。在花了幾年的時間,於約翰霍普金斯大學講授關於資料科學的課程之後,他成立了自己的新創公司:Kylie.ai,該公司使用人工智慧clone品牌個性,並自動化客戶服務的通訊。
Sina也是《Principles of Data Science》的作者。
Divya Susarla是經驗豐富的領導者,在資料方法、各種產業和領域(例如:投資管理、社會企業諮詢和葡萄酒行銷)之中實作並應用策略。她在美國加州大學爾灣分校攻讀了商業經濟學和政治學。
Divya目前在Kylie.ai致力於自然語言處理和生成技術,該公司協助客戶自動化他們的客戶服務對話。
目錄
前言
第1章:特徵工程簡介
激勵人心的例子:AI驅動的聊天系統
特徵工程的重要性
特徵工程是什麼?
機器學習演算法和特徵工程的評估
特徵理解:我的資料集裡面有什麼?
特徵改進:清洗資料集
特徵選擇:對壞屬性說不
特徵建構:我們能建置全新的特徵嗎?
特徵轉換:數學登場囉!
特徵學習:以AI促進AI
小結
第2章:特徵理解:我的資料集裡面有什麼?
資料結構的有無
非結構化資料的例子:伺服器日誌
定量資料和定性資料
資料的4個等級
資料等級總結
小結
第3章:特徵改進:清洗資料集
識別資料中的遺漏值
處理資料集中的遺漏值
標準化和常態化
小結
第4章:特徵建構
檢查資料集
填補分類特徵
編碼分類變數
擴展數值特徵
針對文本的特徵建構
小結
第5章:特徵選擇
在特徵工程中實現更好的效能
建立基準機器學習管線
特徵選擇的類型
選用正確的特徵選擇方法
小結
第6章:特徵轉換
維度縮減:特徵轉換、特徵選擇與特徵建構
主成分分析
scikit-learn的PCA
中心化和縮放對PCA的影響
深入解釋主成分
線性判別分析
LDA與PCA:使用鳶尾花資料集
小結
第7章:特徵學習
資料的參數假設
受限玻爾茲曼機
伯努利受限玻爾茲曼機
在機器學習管線中應用RBM
學習文本特徵:詞向量
小結
第8章:案例分析
案例1A:臉部辨識-使用JAFFE
案例1B:臉部辨識-使用Olivetti Face
案例2:預測飯店評論資料的主題
小結
前言
第1章:特徵工程簡介
激勵人心的例子:AI驅動的聊天系統
特徵工程的重要性
特徵工程是什麼?
機器學習演算法和特徵工程的評估
特徵理解:我的資料集裡面有什麼?
特徵改進:清洗資料集
特徵選擇:對壞屬性說不
特徵建構:我們能建置全新的特徵嗎?
特徵轉換:數學登場囉!
特徵學習:以AI促進AI
小結
第2章:特徵理解:我的資料集裡面有什麼?
資料結構的有無
非結構化資料的例子:伺服器日誌
定量資料和定性資料
資料的4個等級
資料等級總結
小結
第3章:特徵改進:清洗資料集
識別資料中的遺漏值
處理...