Hadoop+Spark生態系統操作與實戰指南-FindBook 找書網 ISBN:9787302479673

內容簡介

本書用於Hadoop+Spark快速上手，全面解析Hadoop和Spark生態系統，通過原理解說和實例操作每一個組件，讓讀者能夠輕松跨入大數據分析與開發的大門。

全書共12章，大致分為3個部分，第1部分（第1~7章）講解Hadoop的原生態組件，包括Hadoop、ZooKeeper、HBase、Hive環境搭建與安裝，以及介紹MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本環境下實戰操作。第2部分（第8~11章）講解Spark的原生態組件，包括Spark Core、Spark SQL、Spark Streaming、DataFrame，以及介紹Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本環境下實戰操作，其中Flume和Kafka屬於Apache開源項目也放在本篇講解。第3部分（第12章）講解兩個大數據項目，包絡網頁日志離線項目和實時項目，在CDH版本環境下通過這兩個項目將Hadoop和Spark原生態組件進行整合，一步步帶領讀者學習和實戰操作。

本書適合想要快速掌握大數據技術的初學者，也適合作為高等院校和培訓機構相關專業師生的教學參考書和實驗用書。

余輝，中國科學院大學碩士研究生畢業，研究方向為雲計算和大數據。現供職於某上市公司擔任技術經理，並在 Oracle OAEC人才產業集團大數據學院擔任大數據講師。曾在清華大學電子工程系NGNLab研究室擔任軟件工程師。

第1章 Hadoop概述 1
1.1 Hadoop簡介 1
1.2 Hadoop版本和生態系統 3
1.3 MapReduce簡介 7
1.4 HDFS簡介 8
1.5 Eclipse+Java開發環境搭建 10
1.5.1 Java安裝 10
1.5.2 Maven安裝 11
1.5.3 Eclipse安裝和配置 12
1.5.4 Eclipse創建Maven項目 16
1.5.5 Eclipse其余配置 19
1.6 小結 21

第2章 Hadoop集群搭建 22
2.1 虛擬機簡介 22
2.2 虛擬機配置 24
2.3 Linux系統設置 31
2.4 Apache版本Hadoop集群搭建 36
2.5 CDH版本Hadoop集群搭建 44
2.5.1 安裝前期准備 44
2.5.2 Cloudera Manager安裝 45
2.5.3 CDH安裝 46
2.6 小結 55

第3章 Hadoop基礎與原理 56
3.1 MapReduce原理介紹 56
3.1.1 MapReduce的框架介紹 56
3.1.2 MapReduce的執行步驟 58
3.2 HDFS原理介紹 59
3.2.1 HDFS是什麼 59
3.2.2 HDFS架構介紹 59
3.3 HDFS實戰 62
3.3.1 HDFS客戶端的操作 62
3.3.2 Java操作HDFS 65
3.4 YARN原理介紹 69
3.5 小結 71

第4章 ZooKeeper實戰 72
4.1 ZooKeeper原理介紹 72
4.1.1 ZooKeeper基本概念 72
4.1.2 ZooKeeper工作原理 73
4.1.3 ZooKeeper工作流程 76
4.2 ZooKeeper安裝 78
4.3 ZooKeeper實戰 80
4.3.1 ZooKeeper客戶端的操作 80
4.3.2 Java操作ZooKeeper 81
4.3.3 Scala操作ZooKeeper 85
4.4 小結 87

第5章 MapReduce實戰 88
5.1 前期准備 88
5.2 查看YARN上的任務 95
5.3 加載配置文件 95
5.4 MapReduce實戰 96
5.5 小結 121

第6章 HBase實戰 122
6.1 HBase簡介及架構 122
6.2 HBase安裝 127
6.3 HBase實戰 129
6.3.1 HBase客戶端的操作 129
6.3.2 Java操作HBase 132
6.3.3 Scala操作HBase 136
6.4 小結 140

第7章 Hive實戰 141
7.1 Hive介紹和架構 141
7.2 Hive數據類型和表結構 143
7.3 Hive分區、桶與傾斜 144
7.4 Hive安裝 146
7.5 Hive實戰 148
7.5.1 Hive客戶端的操作 148
7.5.2 Hive常用命令 154
7.5.3 Java操作Hive 155
7.6 小結 161

第8章 Scala實戰 162
8.1 Scala簡介與安裝 162
8.2 IntelliJ IDEA開發環境搭建 164
8.2.1 IntelliJ IDEA簡介 164
8.2.2 IntelliJ IDEA安裝 164
8.2.3 軟件配置 166
8.3 IntelliJ IDEA建立Maven項目 171
8.4 基礎語法 176
8.5 函數 179
8.6 控制語句 181
8.7 函數式編程 184
8.8 模式匹配 189
8.9 類和對象 191
8.10 Scala 異常處理 194
8.11 Trait（特征） 195
8.12 Scala文件I/O 196
8.13 作業 198
8.13.1 九九乘法表 198
8.13.2 冒泡排序 199
8.13.3 設計模式Command 200
8.13.4 集合對稱判斷 202
8.13.5 綜合題 204
8.14 小結 206

第9章 Flume實戰 207
9.1 Flume概述 207
9.2 Flume的結構 208
9.3 Flume安裝 211
9.4 Flume實戰 212
9.5 小結 214

第10章 Kafka實戰 215
10.1 Kafka概述 215
10.1.1 簡介 215
10.1.2 使用場景 217
10.2 Kafka設計原理 218
10.3 Kafka主要配置 222
10.4 Kafka客戶端操作 224
10.5 Java操作Kafka 226
10.5.1 生產者 226
10.5.2 消費者 228
10.6 Flume連接Kafka 229
10.7 小結 233

第11章 Spark實戰 234
11.1 Spark概述 234
11.2 Spark基本概念 234
11.3 Spark算子實戰及功能描述 238
11.3.1 Value型Transformation算子 238
11.3.2 Key-Value型Transformation算子 242
11.3.3 Actions算子 245
11.4 Spark Streaming實戰 248
11.5 Spark SQL和DataFrame實戰 253
11.6 小結 266

第12章大數據網站日志分析項目 267
12.1 項目介紹 267
12.2 網站離線項目 267
12.2.1 業務框架圖 267
12.2.2 子服務「趨勢分析」詳解 268
12.2.3 表格的設計 272
12.2.4 提前准備 274
12.2.5 項目步驟 287
12.3 網站實時項目 297
12.3.1 業務框架圖 297
12.3.2 子服務「當前在線」詳解 297
12.3.3 表格的設計 302
12.3.4 提前准備 304
12.3.5 項目步驟 327
12.4 小結 337

看更多

詳細資料

ISBN：9787302479673
規格：337頁 / 普通級 / 1-1
出版地：大陸

Hadoop+Spark生態系統操作與實戰指南

內容簡介

目錄

詳細資料