說明大數據和Hadoop 相關概念的書已經有很多了,本書更多想做的不是新聞和概念的堆砌、範例程式的詳解,或是某一項技術的再一次陳述,而是從實際場景出發,為讀者們說明應用中的Hadoop 應該是怎樣的。
本書不是為了說明教科書式的概念,而是為了告訴大家Hadoop 究竟能夠為我們的企業做些什麼。我們會從一些真實可靠的案例出發,說明在各種場景下如何應用Hadoop。
本書可以幫助讀者開闊眼界和找到方法,知道如何分析實際商業場景和業務問題,構建基於Hadoop的大數據系統,透過使用數據運營,對公司業務運營帶來直接的效益。當然對於學生、教師和有志於從業大數據運營的人員來說,也是一本實用的教材。
商品特色
全面實用地論述了從實際應用中分析出的資料採擷和Hadoop 相關概念和技術。
用實際案例為使用者介紹Hadoop,而不只是停留在理論層面。
詳解Hadoop 相關領域最新的技術和商業應用大數據應用的動態變化。
作者簡介:
譚磊
復旦大學電腦學士,美國杜克大學電腦碩士,NABA北美區塊鏈協會聯合創始人。在美國微軟服務超過13年,在搜索、互聯網廣告、資料採擷、電子商務等方面有豐富的經驗,是互聯網技術領域資深專家。
范磊
前英特爾亞太區大數據總監,知名大數據專家,星環科技聯合創始人兼CEO。
推薦序
從1993 年起步開始,到今天順豐的業務已經覆蓋了中國絕大多數省市,以及香港、澳門及台灣等地,事實上已經成為中國快遞企業的領導者。為了給客戶們提供更優質的服務,順豐在技術和大數據領域不斷投入鉅資以加強公司的基礎設施建設,加強裝置和系統的科技水準,以最全的網路、最快的速度、最佳的服務打造產業核心競爭優勢,把順豐塑造成優秀的品牌,讓順豐成為「最值得信賴和尊重的速運公司」。
隨著時代的發展,在各種商業氣氛營造的購物狂歡節層出不窮時,不只「快遞」成為各家各戶必不可少的生活服務設定,「大數據」技術也逐漸滲透到人們的生活中。正是因為有大數據技術的支撐,順豐的巨量快遞才得以有條不紊的進行:使用者的需求被即時回應、快遞從一個節點發佈到下一個節點、合理數量的快遞員被分佈在每一個區域、每一條運輸線路上的班次和車輛都恰到好處。
大數據技術為快遞事業的發展奠定了堅實的基礎,而且會發揮出越來越大的作用。現在在順豐和整個快遞領域,其實還有很多問題尚未極佳地解決,隨著業務的高速增長和業務模式的不斷創新,新的需求不斷被提出,但很多需求與今天的系統架構並不相容,我們需要有完整的資料系統來幫助我們整理和規範化標準流程,增強週邊的搭配系統,甚至建置大數據生態圈,而這也是在未來的許多年中順豐為什麼還要在資料領域作大規模投資的原因。
這本書的作者范磊和譚磊都是我復旦大學的校友,很高興看到他們可以深入研究這項對快遞企業的發展具有舉足輕重作用的技術,預祝這本書的成功。
田民
順豐集團CTO
從1993 年起步開始,到今天順豐的業務已經覆蓋了中國絕大多數省市,以及香港、澳門及台灣等地,事實上已經成為中國快遞企業的領導者。為了給客戶們提供更優質的服務,順豐在技術和大數據領域不斷投入鉅資以加強公司的基礎設施建設,加強裝置和系統的科技水準,以最全的網路、最快的速度、最佳的服務打造產業核心競爭優勢,把順豐塑造成優秀的品牌,讓順豐成為「最值得信賴和尊重的速運公司」。
隨著時代的發展,在各種商業氣氛營造的購物狂歡節層出不窮時,不只「快遞」成為各家各戶必不可少的生活服務設定,「大數據」技術也逐漸滲透到人...
作者序
前言
✤ 大數據的價值在於商業應用
從2006 年雅虎等團隊開始研發Hadoop 技術至今已整整10 年。在這10 年中技術發展迅速,Hadoop 上的生態系統逐漸擴大,各個企業的使用者都在以這一新為基礎的技術來開發各種應用,還有很多企業將原先以傳統IT 系統為基礎的應用逐步向Hadoop 上移轉。
根據Interquest Group 作的2016 年報告, 排名第一的技術工種就是DataScientist( 資料科學家)。今天有大數據技術能力的讀者們在找工作的時候是炙手可熱的,而他們需要掌握的一項關鍵技能就是Hadoop。
我們相信,Hadoop 會成為企業資料中心的核心,而范磊和孫元浩同學的星環科技,其核心產品也逐漸定位成企業核心的Data Hub( 資料集散地)。Hadoop經過這10 年的發展,在2016 年開始進入一個戰略轉捩點。這表示新的技術開始逐漸取代和超越老的技術,並在各個企業迅速發展。在未來的許多年之內,取代過程還會不斷加速。
我們認為,Hadoop 技術能成功的最根本原因在於它是把傳統的集中式運算有效地轉化成分散式運算的一種有效方法。集中計算演變成分散式是一個必然趨勢,當然並不是說一定只有Hadoop 才是這個演進的唯一方法,不過它至少是可選的不錯的方法。
本書中有很多說法和內容是由星環科技的CTO 孫元浩獨家贊助。而在解釋一些實際場景中相對棘手的問題時,為了簡單起見,直接借用了星環科技之前的一些處理問題的方法和想法。
感謝我的好朋友金官丁( 網上化名mysqlops) 提供的幫助。感謝騰訊的邱躍鵬和趙建春,感謝迅雷的劉智聰,感謝金山的朱樺和楊亮,感謝百度的朱觀胤。
我們還要特別感謝蔡可哥、胡一刀、張澤澄、唐繼瑞、李晶、譚彬為本書做的大量資料收集和整理工作以及唐繼瑞為本書設計的章徽。
說明大數據和Hadoop 相關概念的書已經有很多了,本書更多想做的不是新聞和概念的堆砌、範例程式的詳解,或是某一項技術的再一次陳述,而是從實際場景出發,為讀者們說明應用中的Hadoop 應該是怎樣的。
按照劉智聰的說法,現在的Hadoop 系統已經是基建了,幾乎所有非即時的系統都可以在Hadoop 上實現。而當Hadoop 生態系統上出現Spark 和Storm 之後,就算是即時系統,在很多時候也是可以輕鬆實現的。
作為在IT 和網際網路企業沉浮了20 年的老兵,我們覺得寫這樣一本書來講實戰應用是非常有必要的,因為我們一直在思考:
(1) 大數據服務應該是怎樣的?
(2) 大數據究竟能夠為我們做什麼?
(3) 大數據在做實際應用的時候會碰到什麼樣的問題?
(4) 大數據應用的這些問題究竟應該是怎樣解決的?
(5) 怎樣以最好的方式把最新的大數據技術應用到商業系統上去?
(6) 大數據應用做到極致的時候應該是怎樣的?
Gartner 認為,到2020 年,資訊將被用於重新創造、數位化或消除80% 的業務流程和產品。而我們認為,技術終究是為商業來服務的,一項技術的生命力究竟如何,取決於它在真實社會和經濟場景中所發揮出的價值。
隨著近年來大數據技術的高速演變,我們預計未來3 年資料庫以及資料倉儲技術會發生極大的變化。正如Gartner 所預計的,我們的大部分企業客戶會把資料倉儲從以前的傳統資料倉儲傳輸到邏輯資料倉儲中,Hadoop 在其中會扮演非常重要的角色,很多企業應用也已經開始把Hadoop 作為資料倉儲的重要組成部分。
資料平台市場每年創造的價值極大,但大部分都被Oracle、IBM、Teradata 等國外巨頭瓜分,星環科技算是唯一的可以與這些國外巨頭一爭高下的國內大數據廠商,我們希望能夠有更多的國內同行投入到以Hadoop 為基礎的資料倉儲平台的研發之中,打造出大數據時代的傑出資料庫和資料倉儲產品,擺脫國外巨頭們對這個企業的壟斷,幫助中國科技在企業服務領域實現質的突破。
本書不是為了說明教科書式的概念,而是為了告訴大家Hadoop 究竟能夠為我們的企業做些什麼。我們會從一些真實可靠的案例出發,說明在各種場景下如何應用Hadoop。
我們儘量把這本撰寫得淺顯容易,所以並不需要讀者有太多大數據的知識或擁有程式語言的經驗。當然,如果讀者有過Java 或類似程式語言的經驗,對於深入了解本書的一些內容是有幫助的。
因為我們的能力所限,而且本書所覆蓋的案例來自各個不同的領域,在陳述或描述中可能出現一些錯誤或遺漏,歡迎讀者指出,或也可以把你想讀到的某些場景下的Hadoop 應用回饋給我們。
本書中所有的案例均是實際案例,如果讀者覺得有虛構成分,純屬偶然。
編者
前言
✤ 大數據的價值在於商業應用
從2006 年雅虎等團隊開始研發Hadoop 技術至今已整整10 年。在這10 年中技術發展迅速,Hadoop 上的生態系統逐漸擴大,各個企業的使用者都在以這一新為基礎的技術來開發各種應用,還有很多企業將原先以傳統IT 系統為基礎的應用逐步向Hadoop 上移轉。
根據Interquest Group 作的2016 年報告, 排名第一的技術工種就是DataScientist( 資料科學家)。今天有大數據技術能力的讀者們在找工作的時候是炙手可熱的,而他們需要掌握的一項關鍵技能就是Hadoop。
我們相信,Hadoop 會成為企業資料中心的核心,而范...
目錄
01 大數據概念的老調重彈
1.1 網際網路和物聯網上的資料
1.2 資料能為我們做的事
1.3 資料採擷中的一些基本概念
1.4 資料倉儲
1.5 不包含在本書中的內容
1.6 這本書都講些什麼內容
02 Hadoop 的前世今生
2.1 Google 的計算架構
2.2 Hadoop 的誕生
2.3 Hadoop 的今天
2.4 Hadoop 大事記
03 等於大數據的Hadoop
3.1 Hadoop 理念
3.2 Hadoop 核心基礎架構
3.3 Hadoop 上的各種其他元件
3.4 Spark 和Hadoop
04 Hadoop 的價值
4.1大數據時代需要新的架構
4.2 Hadoop 能解決的問題
4.3 去IOE
4.4 7種最常見的Hadoop 和Spark 專案
05 Hadoop 系統速成
5.1 Hadoop 系統架設速成
5.2 在雲端上執行Hadoop
5.3 Hadoop 資訊大全
06 資料倉儲和Hadoop
6.1 大數據時代的資料系統設計
6.2 傳統資料倉儲的瓶頸
6.3 Hadoop 是解決資料倉儲瓶頸的方法
6.4 以Hadoop 和Spark 為基礎的資料倉儲解決方案
07 在不同應用環境下的Hadoop
7.1 在儲存密集型環境中的Hadoop
7.2 在網路密集型環境中的Hadoop
7.3 在運算密集型環境中的Hadoop
7.4 Hadoop 平台的比較和選擇
08 Hadoop 在網際網路公司的應用
8.1 Hadoop 在騰訊
8.2 Hadoop 在Facebook 的應用
8.3 金山的Hadoop
8.4 迅雷公司對Hadoop 的應用
09 Hadoop 和企業應用之一
9.1 Hadoop 和電信業者
9.2 Hadoop 和公用事業
9.3 Hadoop 和「智慧工商」
9.4 Hadoop 和政務雲
10 Hadoop 與「衣食住行」中的「食」和「行」
10.1 Hadoop 和「食」
10.2 Hadoop 和「行」
11 Hadoop 和企業應用之三
11.1 Hadoop 和金融
11.2 Hadoop 和醫療
11.3 Hadoop 和物流
11.4 Hadoop 和媒體
12 特殊場景下的Hadoop 系統
12.1 Hadoop 和即時系統
12.2 Hadoop 平台的一些特殊場景實現
13 Hadoop 系統的挑戰和應對
13.1 Hadoop 系統使用須知
13.2 Hadoop 平台風險點預估
13.3 Hadoop 平台硬體故障的應對機制
13.4 Hadoop 平台如何真正做到高可用性
13.5 Hadoop 平台安全性和隱私性的應對機制
14 Hadoop 的未來
14.1 Hadoop 未來的發展趨勢
14.2 Hadoop 和區塊鏈
A 專業詞彙表
B 參考文獻
C 參考網站一覽
D HDFS 命令列列表
01 大數據概念的老調重彈
1.1 網際網路和物聯網上的資料
1.2 資料能為我們做的事
1.3 資料採擷中的一些基本概念
1.4 資料倉儲
1.5 不包含在本書中的內容
1.6 這本書都講些什麼內容
02 Hadoop 的前世今生
2.1 Google 的計算架構
2.2 Hadoop 的誕生
2.3 Hadoop 的今天
2.4 Hadoop 大事記
03 等於大數據的Hadoop
3.1 Hadoop 理念
3.2 Hadoop 核心基礎架構
3.3 Hadoop 上的各種其他元件
3.4 Spark 和Hadoop
04 Hadoop 的價值
4.1大數據時代需要新的架構
4.2 Hadoop 能解決的問題
4.3 去IOE
4.4 7種最常見的Hadoop ...