企業數據的分析始於讀取、過濾和合併來自多個數據源的文件和數據流。Spark數據處理引擎是這方面的佼佼者,可處理各種量級的數據,其傳輸速度比Hadoop系統快100倍。得益於SQL的支持、直觀的界面和簡單的多語言API,你可輕鬆使用Spark,而不必學習複雜的新型生態系統。
《Spark實戰(第2版)》將引導你創建端到端分析應用程序。在書中,你可學習基於Java的有趣示例,包括用於處理NASA衛星數據的完整數據管道。你還可查看托管在GitHub上的有關Java、Python和Scala的代碼示例,並探索、修改此代碼。此外,《Spark實戰(第2版)》的附錄為你提供速查表,幫助你安裝工具和理解特定的Spark術語。
吉恩·喬治·佩林(Jean-Georges Perrin),是一位經驗豐富的數據和軟件架構師。他是法國的首位IBM Champion,並連續1 2年獲獎,成為終身IBM Champion。