推薦序
從1993 年起步開始,到今天順豐的業務已經覆蓋了中國絕大多數省市,以及香港、澳門及台灣等地,事實上已經成為中國快遞企業的領導者。為了給客戶們提供更優質的服務,順豐在技術和大數據領域不斷投入鉅資以加強公司的基礎設施建設,加強裝置和系統的科技水準,以最全的網路、最快的速度、最佳的服務打造產業核心競爭優勢,把順豐塑造成優秀的品牌,讓順豐成為「最值得信賴和尊重的速運公司」。
隨著時代的發展,在各種商業氣氛營造的購物狂歡節層出不窮時,不只「快遞」成為各家各戶必不可少的生活服務設定,「大數據」技術也逐漸滲透到人們的生活中。正是因為有大數據技術的支撐,順豐的巨量快遞才得以有條不紊的進行:使用者的需求被即時回應、快遞從一個節點發佈到下一個節點、合理數量的快遞員被分佈在每一個區域、每一條運輸線路上的班次和車輛都恰到好處。
大數據技術為快遞事業的發展奠定了堅實的基礎,而且會發揮出越來越大的作
用。現在在順豐和整個快遞領域,其實還有很多問題尚未極佳地解決,隨著業務的高速增長和業務模式的不斷創新,新的需求不斷被提出,但很多需求與今天的系統架構並不相容,我們需要有完整的資料系統來幫助我們整理和規範化標準流程,增強週邊的搭配系統,甚至建置大數據生態圈,而這也是在未來的許多年中順豐為什麼還要在資料領域作大規模投資的原因。
這本書的作者范磊和譚磊都是我復旦大學的校友,很高興看到他們可以深入研究這項對快遞企業的發展具有舉足輕重作用的技術,預祝這本書的成功。
田民
順豐集團CTO
前言
✤ 大數據的價值在於商業應用
從2006 年雅虎等團隊開始研發Hadoop 技術至今已整整10 年。在這10 年中技術發展迅速,Hadoop 上的生態系統逐漸擴大,各個企業的使用者都在以這一新為基礎的技術來開發各種應用,還有很多企業將原先以傳統IT 系統為基礎的應用逐步向Hadoop 上移轉。
根據Interquest Group 作的2016 年報告, 排名第一的技術工種就是DataScientist( 資料科學家)。今天有大數據技術能力的讀者們在找工作的時候是炙手可熱的,而他們需要掌握的一項關鍵技能就是Hadoop。
我們相信,Hadoop 會成為企業資料中心的核心,而范磊和孫元浩同學的星環科技,其核心產品也逐漸定位成企業核心的Data Hub( 資料集散地)。Hadoop經過這10 年的發展,在2016 年開始進入一個戰略轉捩點。這表示新的技術開始逐漸取代和超越老的技術,並在各個企業迅速發展。在未來的許多年之內,取代過程還會不斷加速。
我們認為,Hadoop 技術能成功的最根本原因在於它是把傳統的集中式運算有效地轉化成分散式運算的一種有效方法。集中計算演變成分散式是一個必然趨勢,當然並不是說一定只有Hadoop 才是這個演進的唯一方法,不過它至少是可選的不錯的方法。
本書中有很多說法和內容是由星環科技的CTO 孫元浩獨家贊助。而在解釋一些實際場景中相對棘手的問題時,為了簡單起見,直接借用了星環科技之前的一些處理問題的方法和想法。
感謝我的好朋友金官丁( 網上化名mysqlops) 提供的幫助。感謝騰訊的邱躍鵬和趙建春,感謝迅雷的劉智聰,感謝金山的朱樺和楊亮,感謝百度的朱觀胤。
我們還要特別感謝蔡可哥、胡一刀、張澤澄、唐繼瑞、李晶、譚彬為本書做的大量資料收集和整理工作以及唐繼瑞為本書設計的章徽。
說明大數據和Hadoop 相關概念的書已經有很多了,本書更多想做的不是新聞和概念的堆砌、範例程式的詳解,或是某一項技術的再一次陳述,而是從實際場景出發,為讀者們說明應用中的Hadoop 應該是怎樣的。
本書主要特點:
(1) 全面實用地論述了從實際應用中分析出的資料採擷和Hadoop 相關概念和技術。
(2) 用實際案例為使用者介紹Hadoop,而不只是停留在理論層面。
(3) 詳解Hadoop 相關領域最新的技術和商業應用大數據應用的動態變化。
按照劉智聰的說法,現在的Hadoop 系統已經是基建了,幾乎所有非即時的系統都可以在Hadoop 上實現。而當Hadoop 生態系統上出現Spark 和Storm 之後,就算是即時系統,在很多時候也是可以輕鬆實現的。
作為在IT 和網際網路企業沉浮了20 年的老兵,我們覺得寫這樣一本書來講實戰應用是非常有必要的,因為我們一直在思考:
(1) 大數據服務應該是怎樣的?
(2) 大數據究竟能夠為我們做什麼?
(3) 大數據在做實際應用的時候會碰到什麼樣的問題?
(4) 大數據應用的這些問題究竟應該是怎樣解決的?
(5) 怎樣以最好的方式把最新的大數據技術應用到商業系統上去?
(6) 大數據應用做到極致的時候應該是怎樣的?
Gartner 認為,到2020 年,資訊將被用於重新創造、數位化或消除80% 的業務流程和產品。而我們認為,技術終究是為商業來服務的,一項技術的生命力究竟如何,取決於它在真實社會和經濟場景中所發揮出的價值。
隨著近年來大數據技術的高速演變,我們預計未來3 年資料庫以及資料倉儲技術會發生極大的變化。正如Gartner 所預計的,我們的大部分企業客戶會把資料倉儲從以前的傳統資料倉儲傳輸到邏輯資料倉儲中,Hadoop 在其中會扮演非常重要的角色,很多企業應用也已經開始把Hadoop 作為資料倉儲的重要組成部分。
資料平台市場每年創造的價值極大,但大部分都被Oracle、IBM、Teradata 等國外巨頭瓜分,星環科技算是唯一的可以與這些國外巨頭一爭高下的國內大數據廠商,我們希望能夠有更多的國內同行投入到以Hadoop 為基礎的資料倉儲平台的研發之中,打造出大數據時代的傑出資料庫和資料倉儲產品,擺脫國外巨頭們對這個企業的壟斷,幫助中國科技在企業服務領域實現質的突破。
本書不是為了說明教科書式的概念,而是為了告訴大家Hadoop 究竟能夠為我們的企業做些什麼。我們會從一些真實可靠的案例出發,說明在各種場景下如何應用Hadoop。
我們儘量把這本撰寫得淺顯容易,所以並不需要讀者有太多大數據的知識或擁有程式語言的經驗。當然,如果讀者有過Java 或類似程式語言的經驗,對於深入了解本書的一些內容是有幫助的。
因為我們的能力所限,而且本書所覆蓋的案例來自各個不同的領域,在陳述或描述中可能出現一些錯誤或遺漏,歡迎讀者指出,或也可以把你想讀到的某些場景下的Hadoop 應用回饋給我們。
本書中所有的案例均是實際案例,如果讀者覺得有虛構成分,純屬偶然。
編者