● 大數據時代已經來臨,每個人都將參與這場世紀革命!
● 能夠藉由大數據掌握消費者行為的公司,就能夠掌握整個產業界!
● 帶您一窺歐巴馬是如何在美國總統大選中利用大數據成功掌握當選的秘密!
大數據正以前所未有的速度,顛覆人們探索世界的方法,無論是星羅密布的人造衛星或是數以千萬計的各種感測器,隨時都在源源不絕地偵測、創建和傳輸大量的數據資料。人們的喜怒哀樂、食衣住行等人性化的表徵和行為都已在虛擬的網路空間中再現和昇華。本書將帶您一探蘋果、微軟、谷歌、淘寶網等企業是如何利用大數據成為產業龍頭,宣告人類正式進入大數據時代!
作者簡介:
趙國棟
宏源證券研究所高級分析師、前神州數位系統集成服務有限公司諮詢總監、國際電腦稽核協會(ISACA)會員。擁有15年的資訊產業工作背景,在行動網路、雲端運算、大數據等新興領域擁有深刻獨到的見解。
易歡歡
宏源證券研究所副所長、前甲骨文戰略諮詢部高級經理、青年財經沙龍與TNT沙龍發起人。多次獲得證券行業最高獎項新財富獎、水晶球獎金牌分析師之稱號。
糜萬軍
目前正於創建大數據技術公司。研究方向主要包括高性能運算及大規模數據挖掘。
鄂維南
美國普林斯頓大學教授、北京大學長江講座教授。
章節試閱
科學能從Google那學到什麼?
「科學能從Google那學到什麼?」是2008 年美國《連線》雜誌(Wired Magzine) 主編安德森在他的一篇評論文章(The end of theory: The data deluge makes the scientific method obsolete, Wired Magazine, 06.23.08) 結尾時的問句。的確,Google不僅僅是資訊產業界成功的典範,同時還是資料科學領域的先鋒和開拓者。Google的成長史是一部創新和開拓的歷史。
Google的起步是源自於網頁搜索排序的新概念和演算法開發。在Google之前早已經有了其他的搜尋引擎,最著名的是Yahoo。但所有這些引擎都沒有解決好對搜尋結果作排序的問題。佩奇和布林的想法是把網路的結構利用起來。事實上,每個網頁都是網路上的一個節點,它們不是孤立的,不同的網頁之間通過超連結聯繫在一起。如果一個網頁有很多超連結指向它,就說明它具有權威性,應該排在前面。怎樣給網頁的權威性一個定量的刻劃呢?設想一個醉漢在網路上作隨機遊動,他訪問的最多的網頁就最具有權威性。這樣就可以把網頁排序的問題描述成為一個由網路結構而派生出來的馬氏鏈的不變測度的問題,也就是一個轉移矩陣的特徵值問題。這就是佩奇關於網頁排序的基本想法。通過這種想法,佩奇和布林大大提高了網路搜尋結果的質量。
Google也是第一個將雲端運算由概念變為現實的企業。不言而喻,Google從一開始就需要處理大量的網頁。它最初開發雲端運算的目的是建立一個能把大量的廉價伺服器集合在一起,以完成大型計算和儲存的功能平台。這個平台必須是可擴展、並行的,並且允許其中一些伺服器出現故障。為了達到這一目的,Google開發了一系列的新技術和新的資料儲存模式,其中包
括Google文件系統(Google File System)、MapReduce 等。這些新概念和新技術已成為大數據處理的標準方法。與此同時,Google也建立起了面向未來的資料中心和雲端運算平台。這些基礎設施使得Google在資訊服務產業高居於一個得天獨厚的位置。
Google之所以能做到這些,最根本的一點是它高瞻遠矚的眼光和寬廣的胸懷。Google創始人佩奇和布林認識到,Google的根本利益在於網路能否成為普通大眾生活中必不可少的工具。做好了這一點,Google的商業利益就自然而然地來了。為了做到這一點,Google堅持了由Yahoo開創的網路免費的原則。這個原則對網路的普及起到了最為關鍵的作用。
事實上,Google的商業模式也是可圈可點的。它的盈利是靠網路廣告,而不是靠對用戶的收費。在Google之前,Overture 公司就已經在開展網路廣告業務,但Google把網路廣告推到了更高的層次。Google開發的Adwords系統是計算廣告學最早的實踐典範。
網際網路是一個極大的資源,一個由全世界的億萬使用者共同構建的資源。而Google這樣的公司,通過構建一系列新的概念和技術平台,十分有效地把這些資源變成了他們自己的資源。而在此同時,又給全世界的使用者提供了十分有益的服務。Google的例子是創新和產業發展密切結合、相互推動最成功的例子。
科學能從Google那學到什麼?
「科學能從Google那學到什麼?」是2008 年美國《連線》雜誌(Wired Magzine) 主編安德森在他的一篇評論文章(The end of theory: The data deluge makes the scientific method obsolete, Wired Magazine, 06.23.08) 結尾時的問句。的確,Google不僅僅是資訊產業界成功的典範,同時還是資料科學領域的先鋒和開拓者。Google的成長史是一部創新和開拓的歷史。
Google的起步是源自於網頁搜索排序的新概念和演算法開發。在Google之前早已經有了其他的搜尋引擎,最著名的是Yahoo。但所有這些引擎都沒有解...
作者序
大數據總統歐巴馬
2012年8月份,美國總統大選正進行的如火如荼。一次,歐巴馬總統的數據資料團隊要求他前往一家名為Reddit新聞網站去接受訪問。對許多人來講,Reddit是一個陌生的名字,總統的幕僚們對它也不甚瞭解。但是他的數據資料團隊卻給他一個非常簡單的答案:「因為我們需要動員的一些人,經常會在Reddit上。」
雖然這僅僅是選戰過程中一件毫不起眼的資料決策案例。事實上,歐巴馬的數據資料團隊非常神秘、低調,但其觸角又無處不在,幾乎左右了整個大選,他們被內部人士戲稱為「核編碼」。他們創建了單一的巨大系統,可以將從民調專家、籌款人、選戰一線員工、消費者資料庫、以及「游離州」民主黨主要選民檔案的社會化媒體聯絡人與手機聯絡人那裡得到的所有資料都聚合到一塊。這個組合起來的巨大資料庫令歐巴馬的數據資料團隊工作極富成效,令人驚歎。在這個組合的資料庫中,每個選民甚至被精確地劃分為1000多個特點,通過建模和演算法分析,系統能為每個選民找出一個最能說服他的理由;每晚進行
6.6萬次類比選舉,在個體水準上,計算出歐巴馬在任何一個游離州的勝率。事實上不僅如此:
他們建立的模型能夠預測誰會在線捐款。
他們用來網上籌款的郵件,也充分利用了資料蒐集和分析。
他們借助模型幫助歐巴馬募集到創紀錄的10億美元。
他們幫助優化電視精準投放廣告的模式。
他們創造出了遊離州選民的精細模型。
他們計算出第一夫人發的拉票郵件在春天最受歡迎。
他們利用資料來詳細分析關鍵州的選民。深入分析各個族群的選民在任何時刻的趨勢。在總統候選人的第一次辯論之後,他們分析出哪些選民倒戈,哪些沒有。
他們利用熟人效應,開發Facebook App拉票。
他們為競選團隊購買的廣告提供決策參考。
他們通過一些複雜的模型來精準定位不同選民,他們購買了一些冷門節目的廣告時段,而沒有採用購買本地新聞時段廣告的傳統做法。廣告效率卻相比2008年提高了14%。
他們導致經驗主義的競選專家的功用急劇下降,能夠分析大數據的量化分析專家和程式工程師的地位卻大幅提升。
他們讓政客們(尤其是對手)知道政治領域的大數據時代已經到來。
大數據總統歐巴馬
2012年8月份,美國總統大選正進行的如火如荼。一次,歐巴馬總統的數據資料團隊要求他前往一家名為Reddit新聞網站去接受訪問。對許多人來講,Reddit是一個陌生的名字,總統的幕僚們對它也不甚瞭解。但是他的數據資料團隊卻給他一個非常簡單的答案:「因為我們需要動員的一些人,經常會在Reddit上。」
雖然這僅僅是選戰過程中一件毫不起眼的資料決策案例。事實上,歐巴馬的數據資料團隊非常神秘、低調,但其觸角又無處不在,幾乎左右了整個大選,他們被內部人士戲稱為「核編碼」。他們創建了單一的巨大系統,可...
目錄
第一章 大數據概述
第一節 大數據產生的歷史背景
第二節 大數據的定義和特徵
第三節 大數據的認知框架
第四節 資料科學─改變探索世界的方法
第五節 大數據面臨的挑戰和機遇
第二章 大數據時代已經到來
第一節 國內外產業界的先聲
第二節 美國政府的手筆
第三節 Splunk上市的影響
第四節 資料科學與資訊產業大會的召開
第五節 大數據創新的策源地─雲端基地大數據實驗室
第三章 數據成為資產
第一節 數據資產價值及評估
第二節 大數據飛輪效應是驅動產業融合的關鍵因素
第三節 一家「傳統」公司的大數據飛輪戰略
第四節 以數據資產為核心的商業模式
第四章 大數據顛覆媒體行業
第一節 資訊獲取方式的變革─資訊聚合
第二節 資訊推送方式的變革─線上廣告
第三節 行為廣告領域將孕育「新谷歌」
第四節 大數據驅動的精準營銷
第五章 大數據衝擊金融行業
第一節 第三方支付的「逆襲」
第二節 網路小額信貸來勢兇猛
第三節 網路巨頭推動供應鏈金融進一步發展
第四節 中國P2P網路借貸野蠻生長
第五節 傳統金融機構積極應變
第六章 大數據加劇產業的垂直整合趨勢
第一節 形成以消費者為中心的產業格局
第二節 資訊產業的垂直整合趨勢
第三節 產品層面軟硬一體化重獲青睞
第七章 普及網路化是發揮大數據價值的最佳範式
第一節 蘋果─終端崛起
第二節 雲端筆記本(EverNote)的啟示
第三節 旺鋪助手─小軟體的大夢想
第四節 普及網路化範本啟動大數據飛輪效應
第八章 大數據掀起的企業組織變革
第一節 大數據重塑企業內部價值鏈
第二節 大數據改變組織的外部邊界
第三節 大數據推動企業組織管理變革
第四節 企業領導人要為組織變化做好準備
第九章 資料科學
第一節 資料科學的基本內容
第二節 對學科發展的影響
第三節 科學能從谷歌那兒學到什麼?
第四節 資料科學的教育體系
第十章 資料技術:當前進展及關鍵問題
第一節 大數據管理系統─Hadoop
第二節 資料挖掘技術和流程
第三節 如何成為資料專家
第十一章 巨頭碰撞
第一節 傳統巨擘
第二節 新興巨頭
第十三章 創新兇猛
第一節 數據即服務
第二節 操作基礎設施
第三節 商業智慧
第四節 垂直應用
第五節 其他
附錄 大資料發展大事記
後記
參考文獻
第一章 大數據概述
第一節 大數據產生的歷史背景
第二節 大數據的定義和特徵
第三節 大數據的認知框架
第四節 資料科學─改變探索世界的方法
第五節 大數據面臨的挑戰和機遇
第二章 大數據時代已經到來
第一節 國內外產業界的先聲
第二節 美國政府的手筆
第三節 Splunk上市的影響
第四節 資料科學與資訊產業大會的召開
第五節 大數據創新的策源地─雲端基地大數據實驗室
第三章 數據成為資產
第一節 數據資產價值及評估
第二節 大數據飛輪效應是驅動產業融合的...