使用R,你已經站在巨人的肩膀上。
在巨量資料時代,資料採擷無疑是最炙手可熱的技術。已經滲透到網際網路、金融、電子商務、管理、生產、決策等各個領域,資料採擷的軟體也是層出不窮,其中R是最引人關注的軟體。
R 是一個免費的開放原始碼軟體,它提供首屈一指的統計計算和繪圖功能。R的特點是入門非常容易,使用也非常簡單,不管是初學者或熟練的使用者,都能從本書中找到對自己有用的內容,快速入門和加強。
透過本書,讀者不僅能掌握使用R及相關的演算法套件快速解決實際問題的方法,還可獲得從實際問題分析入手,到利用R進行求解,以及對採擷結果進行分析的全面訓練。
適用:電腦、機器學習、資訊、數學、金融、管理、運籌、統計以及相關科所學生;也能幫助市場行銷、金融、財務、人力資源管理人員及產品經理解決實際問題;或從事諮詢、研究、分析產業的人士及各級管理人提升專業水準。
作者序
前言
在巨量資料時代,資料採擷無疑將是最炙手可熱的技術。資料採擷的理論和方法正日新月異地發展,資料採擷的技術及工具,已經滲透到網際網路、金融、電子商務、管理、生產、決策等各個領域,資料採擷的軟體也是層出不窮,其中R 是最引人關注的軟體。
R 是一個免費的開放原始碼軟體,它提供了首屈一指的統計計算和繪圖功能,尤其是大量的資料採擷方面的演算法套件,使得它成為一款優秀的、不可多得的資料採擷工具軟體。
本書的主要目的是向讀者介紹如何用R 進行資料採擷,透過大量的精選實例,循序漸進、全面系統地說明R 在資料採擷領域的應用。
本書以資料前置處理、基本演算法及應用和進階演算法這三篇展開。
資料前置處理篇
由第1~5 章組成,首先簡介資料採擷流程、演算法和工具,然後介紹R 中的資料分類和資料集,以及使用R 取得資料的多種靈活的方法。最後說明對資料進行探索性分析和前置處理的方法。這些內容是使用R 進行資料採擷的最基礎內容。
基本演算法及應用篇
由第6~9 章組成,主要說明資料採擷的基本演算法及應用,包含連結分析、分群分析、判別分析和決策樹,這些演算法也是資料採擷使用最多最普遍的演算法。R 中提供了豐富的、功能強大的演算法套件和實現函數,資料採擷的初級和中級使用者務必掌握。
進階演算法及應用篇
由第10~14 章組成,主要說明資料採擷的進階演算法及應用,包含整合學習、隨機森林、支援向量機和神經網路,以及使用R 中的工具對資料採擷的模型進行評估與選擇。對於中進階的使用者,可以深入學習一下本篇的內容。
R 的特點是入門非常容易,使用也非常簡單,因此本書不需要讀者具備R 和資料採擷的基礎知識。不管是R 初學者,還是熟練的R 使用者都能從書中找到對自己有用的內容,快速入門和加強。讀者既可以把本書作為學習如何應用R 的一本優秀的教材,也可以作為資料採擷的工具書。
全書以實際問題、解決方案和對解決方案的討論為主線來組織內容,脈絡清晰,並且各章自成系統。讀者可以從頭至尾逐章學習,也可以根據自己的需要進行學習,根據自己在實際中遇到的問題尋找解決方案。
本書所撰寫的來源程式,都通過了反覆偵錯,讀者可在www.topteam.cc 網站下載,方便讀者使用。
本書主要由黃文、王正林撰寫,其他參與撰寫的人員有付東旭、王思琪、鐘太平、劉擁軍、陳菜枚、李燦輝、鐘事沅、王曉麗、王龍躍、夏路生、鐘頌飛、鐘杜清、王殿祜等。在此對所有參與撰寫的人員表示感謝!對關心、支援我們的讀者表示感謝!
由於時間倉促,作者水平和經驗有限,書中錯漏之處在所難免,敬請讀者指正,我們的電子郵件是:wa_2003@126.com。
前言
在巨量資料時代,資料採擷無疑將是最炙手可熱的技術。資料採擷的理論和方法正日新月異地發展,資料採擷的技術及工具,已經滲透到網際網路、金融、電子商務、管理、生產、決策等各個領域,資料採擷的軟體也是層出不窮,其中R 是最引人關注的軟體。
R 是一個免費的開放原始碼軟體,它提供了首屈一指的統計計算和繪圖功能,尤其是大量的資料採擷方面的演算法套件,使得它成為一款優秀的、不可多得的資料採擷工具軟體。
本書的主要目的是向讀者介紹如何用R 進行資料採擷,透過大量的精選實例,循序漸進、全面系統地說明R 在資料採擷領...
目錄
前言
Part 1 資料前置處理篇
00 致敬,R!
01 資料採擷導引
1.1 資料採擷概述
1.2 資料採擷的演算法
1.3 資料採擷的工具
1.4 R 在資料採擷中的優勢
02 資料概覽
2.1 n × m 資料集
2.2 資料的分類
2.3 資料抽樣及R 實現
2.4 訓練集與測試集
2.5 本章整理
03 用R 取得資料
3.1 取得內建資料集
3.2 取得其他格式的資料
3.3 取得資料庫資料
3.4 取得網頁數據
3.5 本章整理
04 探索性資料分析
4.1 資料集
4.2 數位化探索
4.3 視覺化探索
4.4 本章整理
05 資料前置處理
5.1 資料集載入
5.2 資料清理
5.3 資料整合
5.4 資料轉換
5.5 資料精簡
5.6 本章整理
Part 2 基本演算法及應用篇
06 連結分析
6.1 概述
6.2 R 中的實現
6.3 應用案例
6.4 本章整理
07 分群分析
7.1 概述
7.2 R 中的實現
7.3 應用案例
7.4 本章整理
08 判別分析
8.1 概述
8.2 R 中的實現
8.3 應用案例
8.4 推薦系統綜合實例
8.4.1 kNN 與推薦
8.5 本章整理
09 決策樹
9.1 概述
9.2 R 中的實現
9.3 應用案例
9.4 本章整理
Part 3 進階演算法及應用篇
10 整合學習
10.1 概述
10.2 R 中的實現
10.3 應用案例
10.4 本章整理
11 隨機森林
11.1 概述
11.2 R 中的實現
11.3 應用案例
11.4 本章整理
12 支援向量機
12.1 概述
12.2 R 中的實現
12.3 應用案例
12.4 本章整理
13 神經網路
13.1 概述
13.2 R 中的實現
13.3 應用案例
13.4 本章整理
14 模型評估與選擇
14.1 評估過程概述
14.2 安裝Rattle 套件
14.3 Rattle 功能簡介
14.4 模型評估相關概念
14.5 Rattle 在模型評估中的應用
14.6 綜合實例
前言
Part 1 資料前置處理篇
00 致敬,R!
01 資料採擷導引
1.1 資料採擷概述
1.2 資料採擷的演算法
1.3 資料採擷的工具
1.4 R 在資料採擷中的優勢
02 資料概覽
2.1 n × m 資料集
2.2 資料的分類
2.3 資料抽樣及R 實現
2.4 訓練集與測試集
2.5 本章整理
03 用R 取得資料
3.1 取得內建資料集
3.2 取得其他格式的資料
3.3 取得資料庫資料
3.4 取得網頁數據
3.5 本章整理
04 探索性資料分析
4.1 資料集
4.2 數位化探索
4.3 視覺化探索
4.4 本章整理
05 資料前置處理
5.1 資料集載入
5.2...