Hadoop＋Spark大數據巨量分析與機器學習整合開發實戰-FindBook 找書網 ISBN:9789864340545

型式

價格

供應商

所屬目錄

Chapter01 大數據與機器學習
1-1 大數據定義
1-2 Hadoop 簡介
1-3 Hadoop HDFS 分散式檔案系統
1-4 Hadoop MapReduce 介紹
1-5 Spark 介紹
1-6 機器學習介紹

Chapter02 Virtual Box 虛擬機器軟體安裝
2-1 VirtualBox 下載安裝
2-2 設定Virtual Box 儲存資料夾
2-3 在VirtualBox 建立虛擬機器

Chapter03 Ubuntu Linux 作業系統安裝
3-1 下載Ubuntu 安裝光碟檔案
3-2 在Virtual Box 設定Ubuntu 虛擬光碟檔案
3-3 開始安裝Ubuntu
3-4 啟動Ubuntu
3-5 安裝Guest Additions
3-6 設定預設輸入法
3-7 設定終端機程式
3-8 設定終端機白底黑字
3-9 設定共用剪貼簿

Chapter04 Hadoop Single Node Cluster 安裝
4-1 安裝JDK
4-2 設定SSH 無密碼登入
4-3 下載安裝Hadoop
4-4 設定Hadoop 環境變數
4-5 修改Hadoop 組態設定檔
4-6 建立與格式化HDFS 目錄
4-7 啟動Hadoop
4-8 開啟Hadoop Resource Manager Web 介面
4-9 NameNode HDFS Web 介面

Chapter05 Hadoop Multi Node Cluster 安裝
5-1 複製Single Node Cluster 到data1
5-2 設定data1 伺服器
5-3 複製data1 伺服器至data2、data3、master
5-4 設定data2、data3 伺服器
5-5 設定master 伺服器
5-6 master 連線至data1、data2、data3 建立HDFS 目錄
5-7 建立與格式化NameNode HDFS 目錄
5-8 啟動Hadoop Multi Node Cluster
5-9 開啟Hadoop ResourceManager Web 介面
5-10 開啟NameNode HDFS Web 介面

Chapter06 Hadoop HDFS 命令介紹
6-1 啟動Hadoop Multi-Node Cluster
6-2 建立與查看HDFS 目錄
6-3 從本機複製檔案到HDFS
6-4 將HDFS 上的檔案複製到本機
6-5 複製與刪除HDFS 檔案
6-6 Hadoop HDFS Web UI 介面瀏覽HDFS

Chapter07 Hadoop MapReduce 介紹
7-1 wordCount.java 介紹
7-2 編輯wordCount.java
7-3 編譯wordCount.java
7-4 下載測試文字檔
7-5 上傳文字檔至HDFS
7-6 執行wordCount.java
7-7 查看執行結果
7-8 Hadoop MapReduce 的缺點

Chapter08 Spark 安裝介紹
8-1 SPARK 的cluster 模式架構圖
8-2 Scala 介紹與安裝
8-3 安裝SPARK
8-4 啟動spark-shell 互動介面
8-5 設定spark-shell 顯示訊息
8-6 啟動Hadoop
8-7 本機執行Spark-shell 程式
8-8 在Hadoop YARN 執行spark-shell
8-9 建置Spark standalone cluster 執行環境
8-10 在Spark standalone 執行spark-shell

Chapter09 Spark RDD 介紹
9-1 RDD 的特性
9-2 基本RDD「轉換」運算
9-3 多個RDD「轉換」運算
9-4 基本「動作」運算
9-5 RDD Key-Value 基本「轉換」運算
9-6 多個RDD Key-Value「轉換」運算
9-7 Key-Value「動作」運算
9-8 Broadcast 廣播變數
9-9 accumulator 累加器
9-10 RDD Persistence 持久化
9-11 使用Spark 建立WordCount
9-12 Spark WordCount 詳細解說

Chapter10 Spark 整合開發環境介紹
10-1 下載與安裝Scala IDE
10-2 下載專案所需要的Library
10-3 啟動eclipse
10-4 建立新Spark 專案
10-5 設定專案程式庫
10-6 新增scala 程式
10-7 下載WordCount 測試資料
10-8 建立WordCount.scala
10-9 編譯WordCount.scala 程式
10-10 執行WordCount.scala 程式
10-11 匯出jar 檔
10-12 spark-submit 詳細介紹
10-13 在本機local 模式執行WordCount 程式
10-14 在hadoop yarn-client 執行WordCount 程式
10-15 WordCount 程式在Spark Standalone Cluster 執行
10-16 本書範例程式安裝說明

Chapter11 建立推薦引擎
11-1 推薦演算法介紹
11-2 「推薦引擎」大數據分析使用情境
11-3 ALS 推薦演算法介紹
11-4 ml-100k 推薦資料下載與介紹
11-5 使用spark-shell 匯入ml-100k 資料
11-6 查看匯入的資料
11-7 使用ALS.train 進行訓練
11-8 使用模型進行推薦
11-9 顯示推薦的電影的名稱
11-10 建立Recommend 專案
11-11 Recommend.scala 程式碼
11-12 建立PrepareData() 資料準備
11-13 recommend() 推薦程式碼
11-14 執行Recommend.scala
11-15 建立AlsEv alution.scala 調校訓練參數
11-16 建立PrepareData() 資料準備
11-17 進行訓練評估
11-18 執行AlsEv aluation
11-19 修改Recommend.scala 為最佳參數組合

Chapter12 StumbleUpon 資料集介紹
12-1 StumbleUpon 資料集
12-2 下載StumbleUpon 資料
12-3 以LibreOffice Calc 試算表查看train.tsv
12-4 二元分類演算法

Chapter13 決策樹二元分類
13-1 決策樹介紹
13-2 建立Classi fication 專案
13-3 建立RunDecisionTreeBinary.scala 程式
13-4 資料準備階段
13-5 訓練評估階段
13-6 預測階段
13-7 執行RunDecisionTreeBinary.scala
13-8 修改RunDecisionTreeBinary 調校訓練參數
13-9 RunDecisionTreeBinary 執行參數調校程式
13-10 RunDecisionTreeBinary 不執行參數調校程式

Chapter14 邏輯迴歸二元分類
14-1 邏輯迴歸分析介紹
14-2 RunLogisticRegressionWithSGDBinary.scala 程式說明
14-3 執行RunDecisionTreeRegression.scala 進行參數調校
14-4 執行RunDecisionTreeRegression.scala 不進行參數調校

Chapter15 支援向量機器SVM 二元分類
15-1 支援向量機器SVM 演算法基本概念
15-2 RunSVMWithSGDBinary.scala 程式說明
15-3 執行SVMWithSGD.scala 進行參數調校
15-4 執行SVMWithSGD.scala 不進行參數調校

Chapter16 單純貝氏二元分類
16-1 單純貝氏分析原理介紹
16-2 RunNaiveBayesBinary.scala 程式說明
16-3 執行NaiveBayes.scala 進行參數調校
16-4 執行NaiveBayes.scala 不進行參數調校

Chapter17 決策樹多元分類
17-1 「森林覆蓋樹種」大數據問題分析情境
17-2 UCI Covertype 資料集介紹
17-3 下載與查看資料
17-4 建立RunDecisionTreeMulti.scala
17-5 修改RunDecisionTreeMulti.scala 程式
17-6 執行RunDecisionTreeMulti.scala 進行參數調校
17-7 執行RunDecisionTreeMulti.scala 不進行參數調校

Chapter18 決策樹迴歸分析
18-1 Bike Sharing 大數據問題分析
18-2 Bike Sharing 資料集
18-3 下載與查看資料
18-4 建立RunDecisionTreeRegression.scala
18-5 修改RunDecisionTreeRegression.scala
18-6 執行RunDecisionTreeRegression.scala 執行參數調校
18-7 執行RunDecisionTreeRegression.scala 不執行參數調校

Chapter19 使用Apache Zeppelin 資料視覺化
19-1 Apache Zeppelin 介紹
19-2 安裝Zeppelin 前的準備
19-3 Apache Zeppelin 安裝
19-4 啟動Apache Zeppelin
19-5 建立新的Notebook
19-6 使用Zeppelin 執行Shell 命令
19-7 建立暫存資料表「UserTable」
19-8 使用Zeppelin 執行年齡統計Spark SQL
19-9 使用Zeppelin 執行性別統計Spark SQL
19-10 依照職業統計
19-11 Spark SQL 加入文字方塊輸入參數
19-12 加入選項參數
19-13 Zeppelin 在firefox 瀏覽器使用的問題
19-14 同時顯示多個統計欄位
19-15 工具列設定
19-16 設定段落標題
19-17 設定Paragraph 段落寬度
19-18 設定顯示模式

「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」一書，算是姐妹作「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」的前身。就是藉由許多實作的練習，一步步教導讀者學會使用Spark平台進行大數據分析以及機器學習預測。 Hadoop HDFS、Hadoop Map/Reduce等大數據重要觀念也一併收入到書中。不誇張地說，只要好好研習書中介紹的技術並且詳加練習，讀者將在大數據以及機器學習上打下了穩固的基礎。依時序來看以Python 語言為主的「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」才是續作，也反映出目前業界在機器學習領域中，Python儼然成為非正規的標準語言，有最多人投入研習與實作。諷刺地是我反倒是先看完「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」之後，才再看「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」這本書。主要原因是透過PySpark開發出來的預測系統在執行效能上不甚理想。透過Python轉Py4J最後在Spark上執行中Context Switch，讓程式運算耗掉太多轉換時間，對於建置線上預測系統而言，是一大致命傷。因此只要回過頭來研究如何用Scala語言來開發Spark機器學習，畢竟Scala號稱能比PySpark快上數倍。對於不在意採用Scala來實作機器學習的人，這本書不遜於Python的那本續作。只是因為此書出版較早，所以重點多在解說Spark RDD，而在Spark Dataframe的章節相對不足。另外開發工具也建議採用IDEA，不要使用書中介紹的Eclipse(Spark plugin)這樣就沒問題了。

這本書我覺得還不錯，這本書的指令我都有執行過，大多都可以執行，並沒有買書的人與花錢買書的人，所說指令的錯誤不少的情況。我使用書名google查詢發現這本書評價還不錯，而且還有多家大學採用作為教材，如果有指令的錯誤不少的情況，應該不會被大學採用。以上提供參考

有別於其他書，這本書提供了很多實作，而且是“實用的實作”，並且對於大家的問題，還有成立一個facebook的粉絲團，可以在上面發問，還有blog提供操作指令，讓我不用照著書上打，也不用怕打錯，降低入門的門檻，總之是本好書，真的，真心不騙。