本書用於Hadoop+Spark快速上手,全面解析Hadoop和Spark生態系統,通過原理解說和實例操作每一個組件,讓讀者能夠輕松跨入大數據分析與開發的大門。
全書共12章,大致分為3個部分,第1部分(第1~7章)講解Hadoop的原生態組件,包括Hadoop、ZooKeeper、HBase、Hive環境搭建與安裝,以及介紹MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本環境下實戰操作。第2部分(第8~11章)講解Spark的原生態組件,包括Spark Core、Spark SQL、Spark Streaming、DataFrame,以及介紹Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本環境下實戰操作,其中Flume和Kafka屬於Apache開源項目也放在本篇講解。第3部分(第12章)講解兩個大數據項目,包絡網頁日志離線項目和實時項目,在CDH版本環境下通過這兩個項目將Hadoop和Spark原生態組件進行整合,一步步帶領讀者學習和實戰操作。
本書適合想要快速掌握大數據技術的初學者,也適合作為高等院校和培訓機構相關專業師生的教學參考書和實驗用書。
余輝,中國科學院大學碩士研究生畢業,研究方向為雲計算和大數據。現供職於某上市公司擔任技術經理,並在 Oracle OAEC人才產業集團大數據學院擔任大數據講師。 曾在清華大學電子工程系NGNLab研究室擔任軟件工程師。