Spark數據處理引擎是一個驚人的分析工廠:輸入原始數據,輸出洞察。PySpark用基於Python的API封裝了Spark的核心引擎。它有助於簡化Spark陡峭的學習曲線,並使這個強大的工具可供任何在Python數據生態系統中工作的人使用。《Python和PySpark數據分析》幫助你使用PySpark解決數據科學的日常挑戰。你將學習如何跨多台機器擴展處理能力,同時從任何來源(無論是Hadoop集群、雲數據存儲還是本地數據文件)獲取數據。一旦掌握了基礎知識,就可以通過構建機器學習管道,並配合Python、pandas和PySpark代碼,探索PySpark的全面多功能特性。
主要內容:組織PySpark代碼;管理任何規模的數據;充滿信心地擴展你的數據項目;解決常見的數據管道問題;創建可靠的長時間運行的任務。
[加]喬納森·里烏(Jonathan Rioux),作為一家數據驅動軟件公司的ML總監,Jonathan Rioux每天都在使用PySpark。他向數據科學家、數據工程師和精通數據的業務分析師講授PySpark的用法。