大數據時代的資料庫處理：Spark SQL親自動手做（熱銷版）-FindBook 找書網 ISBN:9789863797814

圖書名稱：大數據時代的資料庫處理：Spark SQL親自動手做（熱銷版）

全書分為4篇，共9章，第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例，幫助讀者掌握Spark SQL的入門操作，瞭解Spark RDD、DataFrame和DataSet，並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案，實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料，一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。

適用：Spark初學者、Spark資料分析人員以及Spark程式開發人員，也可作為大專院校和培訓機構等相關專業的師生教學參考。

作者簡介：

紀涵

資料採擷、雲計算愛好者，曾負責多個中小型網站的開發維護工作，參與開發設計多款面向校園服務的App，與多個基於Hadoop、Spark平台的大數據應用，現主要研究方向為機器學習、資料採擷。

作者序

我們處於一個資料爆炸的時代！

大量湧現的智慧型手機、平板、可穿戴裝置及物聯網裝置每時每刻都在產生新的資料，然而帶來革命性變革的並非巨量資料本身，而是我們如何從這些資料中採擷到有價值的資訊，來輔助我們做出更加智慧的決策。我們知道，在生產環境下，所謂的大數據常常是由數千萬筆、上億筆具有多個預先定義欄位的資料單元組成的資料集，是不是很像傳統關聯式資料庫的二維資料表呢？那麼我們是否也能找到一個像SQL 查詢那樣簡便的工具來高效率地分析處理大數據領域中的巨量結構化資料呢？沒錯，這個工具就是Spark SQL。

Spark SQL...

顯示全部內容

第一部分入門篇
1初識Spark SQL
1.1 Spark SQL的前世今生
1.2 Spark SQL能做什麼
2 Spark安裝、程式設計環境架設以及包裝傳送
2.1 Spark的簡易安裝
2.2 準備撰寫Spark應用程式的IDEA環境
2.3 將撰寫好的Spark應用程式套件裝成jar傳送到Spark上
第二部分基礎篇
3 Spark上的RDD程式設計
3.1 RDD基礎
3.2 RDD簡單實例—wordcount
3.3 建立RDD
3.4 RDD操作
3.5 向Spark傳遞函數
3.6 常見的轉化操作和行動操作
3.7 深入了解RDD
3.8 RDD 快取、持久化
3.9 RDD checkpoint容錯機制
4 Spark SQL程式設計入門
4...

顯示全部內容