這是一本關於機器學習的書,它以Scala為重點,介紹了函數式編程方法以及如何在Spark上處理大數據。本書后面將介紹關於Hadoop的內容。最初它能在廉價硬件上處理大量的信息,因為當時傳統的關系數據庫不能處理這樣的信息(或能處理,但是代價過高)。大數據這個話題太大了,而Spark才是本書的重點,它是Hadoop MapReduce的另一個實現,Spark提高了磁盤上持久化保存數據的效率。通常認為使用Spark有點貴,因為它消耗更多的內存,要求硬件必須更可靠,但它也更具交互性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API語言。因此Spark用Scala在數據管道的表達方面有一定的協同性。