Apache HAWQ是一個SQL-on-Hadoop產品,它非常適合用於Hadoop平台上快速構建數據倉庫系統。HAWQ具有大規模並行處理、完善的SQL兼容性、支持存儲過程和事務、出色的性能表現等特性,還可與開源數據挖掘庫MADlib輕松整合,從而使用SQL就能進行數據挖掘與機器學習。《HAWQ數據倉庫與數據挖掘實戰》內容分技術解析、實戰演練與數據挖掘三個部分共27章。技術解析部分說明HAWQ的基礎架構與功能特性,包括安裝、連接、對象與資源管理、查詢優化、備份恢復、高可用性等。實戰演練部分用一個完整的示例,說明如何使用HAWQ取代傳統數據倉庫,包括ETL處理、自動調度系統、維度表與事實表技術、OLAP與數據的圖形化表示等。數據挖掘部分用實例說明HAWQ與MADlib整合,實現降維、協同過濾、關聯規則、回歸、聚類、分類等常見數據挖掘與機器學習方法。《HAWQ數據倉庫與數據挖掘實戰》適合數據庫管理員、大數據技術人員、Hadoop技術人員、數據倉庫技術人員,也適合高等院校和培訓機構相關專業的師生教學參考。
王雪迎 ,畢業於中國地質大學計算機專業,高級工程師,從事數據庫、數據倉庫相關技術工作20年。先后供職於北京現代商業信息技術有限公司、北京在線九州信息技術服務有限公司、華北計算技術研究所、北京優貝在線網絡科技有限公司,擔任DBA、數據架構師等職位。著有圖書《Hadoop數據倉庫實踐》。