本書系統講述Apache Spark/PySpark大數據計算平台的原理,以及如果將Apache PySpark應用於大數據的實時流處理、批處理等各個場景。通過原理深入學習和實踐示例、案例的學習應用,使讀者了解並掌握Apache Spark/PySpark的基本原理和技能,接近理論與實踐的距離。
全書共分為8章,主要內容包括:Spark架構原理與集群搭建、開發和部署PySpark應用程序、PySpark核心編程、PySpark SQL、PySpark SQL高級分析、PySpark結構化流、PySpark結構化流高級處理、Spark大數據處理綜合案例。本書源碼全部在Apache Spark 3.1.2上調試成功,所有示例和案例均基於Python 3.x語言。為降低讀者學習大數據技術的門檻,本書除了提供了豐富的上機實踐操作和範例程序詳解之外,本書作者還為購買和使用本書的讀者提供了搭建好的Hadoop、Hive數倉和PySpark大數據開發和學習環境。讀者既可以參照本書的講解自行搭建Hadoop和PySpark環境,也可直接使用作者提供的開始和學習環境,快速開始大數據和PySpark的學習。
本書系統講解了Apache Spark/PySpark大數據計算平台的原理和流、批處理的開發實踐,內容全面、實例豐富、可操作性強,做到了理論與實踐相結合。本書適合大數據學習愛好者、想要入門Apache Spark/PySpark的讀者作為入門和提高的技術參考書,也適合用作大中專院校大數據專業相關的學生和老師的教材或教學參考書。
辛立偉,一個在IT領域摸爬滾打二十多年的老程序員、技術培訓師、技術作者。橫跨Java、數據庫、大數據開發與分析、人工智能等多個領域,參與多個IT項目的架構設計與開發。長期堅持撰寫技術博客,曾在多個大學講授Java開發、數據庫和大數據技術課程,曾擔任中國石油大學(青島校區)等多所院校的外聘講師。