推薦序
當商業智慧隱藏在雲深不知處
巨量資料是個必然趨勢。
巨量資料(亦稱為海量資料、大數據)指的是在以往一般技術不容易管理但現在已能有效儲存、分析的大量資料。
自從有了網際網路,資料的產生已不是各個組織的內部活動所產生的,而是包括了跨組織的各項活動記錄,更包括了數以億計的人類在網路上各自產生及互動的資料;在工具使用上除了傳統電腦、平板、智慧型手機、以及各項道路監視器、環境監控數據設備。
從中國的歷史上來看,資料的產生、儲存、傳遞,講的是「字」。我們的祖先結繩記事也好,用龜甲牛骨刻下所謂的甲骨文也好,都是費時費力的。到了用竹簡記事,也記不了太多的字。以前的人說「學富五車」是形容書讀很多的意思;然而,如果以尚未發明印刷術的眼光來看,「五車」的竹簡,大概指的是《論語》已經讀了好幾篇,快要讀《大學》《中庸》。
有了電腦之後,早年的資訊科技,不論是資料的產生、儲存、傳遞,講的是K (Kilo、 仟、十的三次方10^3或2^(10))。到了1990年代,講的是M(Mega、Million、百萬、十的六次方10^6 或2^(20) )。進入二十一世紀,2000年左右,講的是G (Giga、Billion、十億、十的九次方10^9或2^(30))。現在,我們講的是T(Tera、Trillion、萬億、兆、十的十二次方10^(12)或2^(40))。
由此可見,資料的產生、 儲存、 傳遞真的進步太多了。
所以,我的博士班學生畢業的時候, 只要一片光碟,就能把他們所有讀過、寫過的文章全部備份起來,非常輕便(卻也很沒成就感)。
鑑往知來,如果資訊科技進步繼續下去,我們會從T(Tera)一路走到P(petra、 10^(15))和 E(exa、10^(18))的世界(TPE也剛好是台北在國際航空的代號桃園國際機場)。
英國Centrica電力公司可以每三十分鐘透過網路讀取用戶智慧電錶一次,每天抄電錶四十八次,它能對用戶的用電行為觀察更多更瞭解,甚至分析之後能對客戶行為有更精準的預測,可以調節不同用電需求的輸配電電路。 每天抄錶四十八次,一年就產生1T的資料。
1970年代,10M的磁碟機要40萬台幣,可以買當時的豪宅一棟;2000年左右,2G隨身碟(200個10M)約2萬台幣,可買當時的小噸數窗型冷氣機一台;現在(2013年),128G(64個2G、12800個10M)的隨身碟,新台幣2,388元即可入手,這個價格可以讓一對情侶到五星級飯店的自助餐廳用餐一次。
在資訊科技進步的軌跡上,我們不只已看到巨量資料的應用,我們更確信它的普及是個必然趨勢。
在數學符號上就是一個國中生寫下「10^(20)」不會有甚麼感覺,它就是1的後面跟上20個零。但是,在實體世界裡 全地球所有海灘的沙粒總數大約就是這麼多粒,是很多很多的,對我們個人來說就是無限大,在佛經中則稱為「恆河沙數」。
小孩子不容易忘記,是因為他的記憶內容少,比較容易找到記得的事物;大人容易忘記,是因為記憶內容較多,卻沒有用心建立索引目錄分類、缺少工具與方法,或是傳輸線老化接觸不良,不容易找到曾經記憶過的事物。
如果資料少,當然容易找到過去的紀錄;如果資料多,當然增加極大的困難;更何況,要分析巨量資料中的數不盡的關係與內涵,絕對不是單純的正比關係。
如果在一家企業內部進行資料探勘應用,我們稱之為商業智慧(BI,Business Intelligence),這是許多公司知識管理的範疇,也已經有二、三十年的歷史;台灣資訊管理相關科系都有在資料庫相關課程裡探討。許多像SAP、Oracle、IBM等公司都提供類似的軟體工具。
但是,到了巨量資料一路往TPE走,許多智識都隱藏在雲深不知處,確實是能夠探勘出有價值的資訊,變成更有必要卻更困難,因此需要更有競爭力。
本書提出許多實際成功應用的案例,列出相關互動隱私及安全的議題,是一本有相當廣度的巨量資料相關讀物,很適合關心未來的知識份子閱讀。
文∕楊千
(本文作者為國立交通大學經營管理研究所教授)
推薦序
Big Data, Big Intelligence:從資料、資訊到情報
我在2006年任職於Google時,有一次,前往一所大學演講Google的儲存系統GFS。一位教授問我:「那資料要刪除的時候怎麼辦?」我反問:「資料為什麼要刪除?」在場所有人都露出奇怪的表情。
Google的認知是:資料(data)裡面會有資訊(information),「現在用不到」並不表示「以後用不到」。除非法律規定必須刪除,不然一概保留。今天大家已經聽到了「資料是新石油」(Data is the new oil.)這句話,也開始知道了資料中會有「看不見的價值」。
《孫子兵法》共有十三篇,最後一篇談〈用間〉,也就是情報戰。情報的價值,遠高於其他戰術或武器。今天所謂的精靈武器,就是能妥善運用地理定位(Geolocation)和圖形識別(Pattern Recognition)等技術所取得的資訊和情報。由最近幾年公布的許多資料可以看出,第二次世界大戰的勝負,其實就是決定在情報。由美軍破解日本海軍密碼而在中途島(Midway Islands)洞燭機先,到英國破解德軍潛艇的Enigma密碼而殲滅狼群以保全橫渡大西洋的生命線,都是任何戰術和武器無法獨自達成的。
情報如此重要,許多人把失敗的責任歸責於錯誤的情報,或是缺乏情報。事實上,我們的四周充滿了大量的情報,只是一般人無法有效正確地辨識。例如珍珠港事件(Pearl Harbor Bombing)之前,已有一封緊急電報示警,但是這封電報遭人擱置,直到事件發生之後才譯出。有能力正確並及時辨識這些情報的人,小者被稱為福爾摩斯(Sherlock Holmes)或是柯南(名探偵□□□),大者就被稱為諸葛亮。在商場不見硝煙的戰爭中,情報更突顯出它的重要。今天我們開始擁有了處理這些大量資料的工具,更重要的是讀懂這些資料,把它們轉化成可用情報的智慧。正如我在 Facebook 上說過的(編按:全文詳見作者網誌〈IoT 和 Big Data 商機的迷思〉):
想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?
.存得起來的,就是storage(儲存)。
.看得到的,才是data(資料)。
.看得懂的,叫做information(資訊)。
.用得出來的,才能稱為intelligence(情報、智慧)。
Big Data這個名字事實上是有點誤導。真正賺錢的,是從big data中萃取出來的 big intelligence。為什麼CIA叫作Central Intelligence Agency(中央情報局),而不是Central Information Agency(中央資訊局)或Central Data Agency(中央資料局)?而萃取information和intelligence的技術並不是現在才有的。隨便問一個有水準的資訊資工系教授,就會告訴你data mining(資料探勘)、neural network(神經網路)、pattern recognition(圖形識別)、statistical machine translation(統計型機器翻譯)、information retrieval(資訊萃取),...等等領域的歷史。這些才是困難而需要投資開發的領域,而不是一個簡單的大量儲存和平行運算系統。
我在2003年進入Google的時候,正是MapReduce初啟用之時。Google原本的Indexer是一套大程式,用了幾百台伺服器,要一個多星期才能完成工作。而中間只要有一台機器當機一次,就要全部重來。Google因此設計了MapReduce這套系統,主要目的在於容錯。將資料切成許多小塊,分到獨立的伺服器上處理。雖然機器數量增加到了兩千台,但中間不管怎麼當機都沒關係了。後來在論文發表後引出了Hadoop這個Open Source的軟體,給了想做大量資料分析的人一個很好的工具,也讓Hadoop在很多人心中變成了Big Data的同義字。但事實上Hadoop只是一個平行分散式資料處理的工具,真正能為資料創造價值的是上層的智慧分析。這些工具是讓資料分析師(以後是叫做「資料科學家」?)能把時間用在真正重要的工作「資訊萃取」上,而不只是打造所需的工具。想要靠 Big Data 做一番事業的人,絕不是只要學會了這些工具就可以了。
1994年,商用的Internet開始成型,因為modem的速度和價格開始達到一般人可用的範圍。今天,儲存和處理資料的速度和價格也開始達到一般公司可以負擔得起初步的Big Data處理的程度。商用Internet起步的初期,業界很多人認為只要架個網站就會有生意上門。今天我們在Big Data這個領域也會有這麼一段混亂期,需要藉著更多好的介紹書籍和文章的引入,可以縮短這段過渡期。很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,能對如何萃取周遭的資訊並加以運用有更深一層的認識,並從Big Data進步到Big Intelligence的層級。
共勉之。
文∕翟本喬
(本文作者為和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect。)
導讀
創造「偶然的幸運」(serendipity),正是巨量資料技術不斷前進的動力
接到本書導讀的邀稿時,剛好是我跟一家國內大型服務公司探討他們公司海外發展議題之後的下午。
這讓我想到,從2004年加入野村總合研究所台北分公司以來,轉眼已經過了九年。常有企業主在面對全球新的議題與挑戰時,諮詢我們的看法;而我們的顧問專家群,難免也會私下討論不同國家的企業主對於新事物的接受態度。
過去,我們總是以為台灣企業主很少願意從邏輯思考的角度,看清所謂新事物 的全貌,凡事好像只想要得到「引進這件新事物的時機是否已經成熟?」的答案,卻沒有深入思考「如何親自將新事物引進企業,做為企業超越自我的契機?」。
讀完這本書之後,我必須稍加修正以上的觀點,或許該說,如果對於新事物的介紹,可以有辦法解說得完完整整、面面俱到,那麼,企業主怎麼可能放過這些知識呢?
這本書是我在東京總公司的同事城田真琴的著作,在日本,這本書出版於2012 年7月,2013年陸續出版韓文版、簡體中文版與繁體中文版,是巨量資料領域的重要著作。我認為,這本書內容能讓台灣的讀者有機會看見全球發展「巨量資料」的全貌。
本書的內容在第一及第二章介紹了「巨量資料」在資訊科技技術上出現的許多新名詞,例如Hadoop、NoSQL、LOD 等;並且進一步解說企業在資料運用層面,從過去的「資料可視化」進展到「資料預測未來」的境界;因此,強調深層的資料調查以及準確度的預測,讓企業因為採用巨量資料的「技術」而進展到更高的境界。
簡言之,對於電腦技術名詞沒有興趣的讀者,可以想像,過去資料只能「知道交易已經完成」的階段,當運用巨量資料以後,已經進化到可以「知道交易完成的原因」了。
對於想知道全球企業實際應用巨量資料個案的讀者們,可以在第三章了解到四家歐美企業的成功案例,其中包含網拍公司eBay如何整合過去的資料倉儲分析系統與巨量資料技術,讓大家羨慕eBay員工擁有三個不同的資料分析基礎來支持他們進行業務的拓展。此外,第三章也介紹遊戲公司Zynga如何以5 %的付費客戶繳出11億美元營收的驚人業績。英國瓦斯及電力公司Centrica的個案,讓讀者了解英國把150萬顆機械電表改成數位電表後,巨量資料改變每個人生活的情境。第三章最後介紹的是大型零售業者卡特琳娜行銷集團(Catalina Marketing),豪氣地蒐集一億人的消費資料,達成「能夠以100 %的準確度,預測出像是會購買某個商品的潛在消費者」的行銷新境界。
當讀者沉浸於以上個案的激盪時,別忘了第四章還有四個日本企業運用巨量資料的成功案例——小松(KOMATSU)是日本主要建築機械的供應商,其實在台灣的建築工地也不難看見小松的推土機以及怪手;小松的商業模式是租賃這些機械設備給營建商或是工務機構,因此,透過全球機械所不斷蒐集的相關巨量資料,已經可以用來推估設備維修的需求即將發生,以及給使用者燃料使用節省的建議做法等。瑞可利(RECRUIT)是家擁有各式各樣網路專門服務的公司,有求職、結婚、購屋網等,他們採用Hadoop技術,加上名為MIT(Marketing & IT United)的新組織,跨部門整合公司內部各單位,讓企業內部更有效地蒐集與分享利用巨量資料。此外,第四章也剖析日本遊戲公司GREE急速成長的原動力,在於「與其相信一人的判斷,不如相信數千萬人的資料」,他們稱為「資料驅動型營運方式」。第四章最後的日本麥當勞(McDonald’s Japan)案例,我在2009年就曾涉獵過,很佩服該公司仍持續發展個人化行銷的相關巨量資料,要達成「在現實世界實現一對一行銷」的願景。
原本我以為這本書第三章與第四章完整介紹歐美日的八個企業案例之後,到此 應該夠了,但是,身為一位任職於全球知名智庫的管理顧問專家,如果只是把資料說個夠多,並沒有滿足提出「洞察力」(insight)這樣的專業標準,可能無法滿足讀者追根究柢的渴望。因此,我們可以看見第五章有13個巨量資料的運用案例,進一步介紹「將巨量資料引進企業,做為企業自我超越的契機」的具體樣貌。本書最令人讚歎的地方,在於作者將他研究企業應用巨量資料的成功案例,歸納成一張張淺顯易懂的圖表,其中,第五章【圖表5-1】巨量資料的運用模式,是一張相當精采的圖表,由個別最佳化、全體最佳化、批次處理與及時處理構成四種巨量資料運用的商業模式,滿足想要對於巨量資料獲利模式一探究竟的挑剔讀者們。
接下來,第六章探討美國歐盟以及日本主要國家對於巨量資料侵犯隱私的相關 法律及對應的措施,針對許多服務業者關心台灣對於消費者隱私保護的議題而言, 有具體的參考價值。
我們都知道,談巨量資料一定避免不了政府的公開資料(Open Data)此一環節,作者選擇在商業模式探討完畢之後,再來說明美、英、日等國政府鼓勵發展公開資料的具體做法,其實也確實符合我們的觀察,單單政府資料公開無法成為獲利 模式的趨勢;但是,如果沒有政府的公開資料,肯定有些美好的巨量資料商業模式就無法成真。
事實上,本書結論讓我非常震撼——我是一位1990年代投身職場的上班族,當 年,資訊工程師(Information Engineer)這個新職業造就了一波產業的革命,也 帶動了台灣服務業的一波成長榮景。本書最後,作者告訴我們,身處巨量資料的年代,不僅僅企業在組織內需要一位資料長(Chief Data Officer)的新角色;而且未來十年,整個IT業界裡最重要的人才將是資料科學家(Data Scientist)這個新人才。美國的大學已經開始開設主修分析學的研究所課程,展開人才的培養教育,他需要培養三種特質,容我賣個關子,把這個答案留給讀者在本書裡挖掘吧!
最後,很高興出版單位給我有機會搶先讀完本書,我也很喜歡作者在本書中提出的許多細微的觀察,例如,在說明亞馬遜(Amazon)電子商務的「協同過濾」(Collaborative Filtering)技術時,引經據典地介紹「偶然的幸運」(Serendipity)這個詞,這是來自英國小說家霍雷斯.華爾波(Horace Walpole)在1754年的新創文字,描述消費者意外擁有幸運或是發現有價值事物的奇特心情,很傳神地說明了給消費者不可預期的幸運,正是巨量資料技術不斷前進的動力啊!
文∕陳志仁
(本文作者為台灣野村總研諮詢顧問股份有限公司副總經理)