前言 超級數據達人崛起
艾森菲特(Orley Ashenfelter)酷愛美酒,他說:「上好的紅酒只要擺上幾年,便會發生奇妙的變化。」他不只是執著於酒的美味,還想要了解是什麼因素決定酒的等級。
「當你購買一瓶上好的紅酒時,其實是一種投資行為,你預期以後可能會更好喝。換句話說,你要知道的不是紅酒現在的價值,而是未來的價值。即使你沒有要賣而是自己要喝,也是一樣。當你想著:『如果我延遲滿足,將會得到多大的樂趣呢?』這句話本身就是一個樂趣無窮的問題。」過去二十五年來,艾森菲特投入相當多的心力研究這個問題。
艾森菲特的正職是數據分析專家。他利用統計方法從大量資料集裡擷取隱藏的資訊。身為普林斯頓大學的經濟學家,他曾研究同卵雙胞胎的薪水,以評估多讀一年書的影響;也曾經從美國各州道路速限的差異評估州政府如何評價統計學上的人命價值。多年來,他一直擔任美國重要經濟刊物《美國經濟評論》(American Economic Review)的編輯。
艾森菲特身材長大,一頭濃密的白髮,聲音洪亮但親切,很容易成為一室的主角。他絕不是畏首畏尾的人,如果你以為數據分析專家都是溫吞、孤僻型的,他會很快讓你刮目相看。我看過他在教室昂首闊步,溫和但熱情地剖析一篇報告背後的邏輯。當他對某件事讚譽有加時,你可要注意聽了。
真正讓他惹上麻煩的是透過數據分析來評估波爾多葡萄酒的品質。他不似帕克(Robert Parker)一類葡萄酒專家採取「含酒吐出」的品酒法,而是利用統計學找出葡萄酒有哪些特質會影響售價的高低。
他說:「這其實很簡單,葡萄酒是一種深受每年氣候變化影響的農產品。」他研究法國波爾多地區數十年的氣候資料,發現收成時雨量少加上夏季平均溫度高,便能生產出最好的酒。一九五二至八○年的統計資料很符合勃艮地與波爾多的葡萄酒價格。
當葡萄夠成熟且果汁濃度高時,波爾多葡萄酒的品質最佳。夏天特別熱的年份,葡萄夠熟,酸度自然降低。若降雨量低於平均值,葡萄的濃度便很高。因此,最高品質的葡萄酒多產於又熱又乾的年份。成熟的葡萄釀造出的酒比較柔和(酸度低),濃度高的葡萄則能製造出酒體醇厚(full-bodies)的美酒。
他很大膽地將這套理論化為下列公式:
葡萄酒的品質=12.145+0.00117×冬季雨量+0.0614×生長季平均溫度-0.00386×收成季雨量
沒錯,只要將任何年份的氣候統計數字填入,他就能預測當年度葡萄酒的一般品質。他還有更複雜的公式,可精確預測超過一百家酒莊的葡萄酒品質。他承認:「看起來似乎就是一堆數字,但法國一八五五年著名的分類法就是用這個方式為葡萄園排名的。」
傳統的葡萄酒評論家對艾森菲特這種資料導向的預測法卻很不買帳。英國的《美酒》雜誌(Wine )說:「該公式之荒謬可笑不言可喻,根本不值一哂。」紐約酒商索科林(William Sokolin )指出,波爾多葡萄酒業者對艾森菲特公式的看法「反應非常激烈,近乎歇斯底里」。有些商會成員對他嗤之以鼻,有一次他到佳士得拍賣公司的酒類部門演講,坐後面的酒商公開噓他。
帕克堪稱世界最具影響力的葡萄酒作家(也是《美酒鑑賞家》〔The Wine Advocate〕的出版者),罵起艾森菲特非常生動,稱之為「如假包換、百分之百的騙子」。艾森菲特則是全球最受尊重的計量經濟學家(quantitative economist)之一,但帕克認為他「根本是用原始的方法在評論葡萄酒,荒謬到可笑的程度」。他認為數學公式絕無法算出真正美味的好酒:「我絕不希望被邀請到他家品酒。」
帕克說艾森菲特「就像一個從不看電影的影評人,光看演員與導演是誰便進行評論」。帕克的話不無道理。實際去看電影當然比較準確,那麼,實際去品嚐美酒,應該會作出較中肯的評論吧?但這裡面有個問題:你必須等好幾個月才能嚐到酒。波爾多與勃艮地葡萄酒必須先儲存在橡木桶裡十八至二十四個月,再裝入瓶中慢慢成熟。葡萄酒放入桶子後,帕克這樣的品酒專家必須等待四個月才能嚐到第一口─那時的酒還在發酵,挺難喝的。喝下如此難喝的新酒,真能準確預知未來的品質嗎?很難說。舉例來說,凱塞(Bruce Kaiser)曾任拍賣商伯得富(Butter.eld & Butter.eld )的酒類部門主管,他指出:「新釀的酒變化很快,沒有人─任何人都沒辦法─靠品嚐作出正確評估,至少得等十年、甚至更久。」
反之,艾森菲特的作法是運用數據分析找出氣候與價格的歷史關係。他發現冬季的雨量每增加一公分,可讓酒的預期售價提高○?○○一一七美元。當然,這只是一個趨勢。但透過這個方法,他可以在葡萄剛採收時便預測未來的酒質─比專家嚐到第一桶酒早了幾個月,比成品售出時間更提前數年。在葡萄酒期貨交易熱絡的時代,他的預測讓美酒收藏家多了一分競爭力。
一九八○年代末,他開始將他的預測刊登在半年發行一次的通訊《液體資產》(Liquid Assets)。剛開始,他在《美酒觀察》(Wine Spectator)刊登小廣告,慢慢累積了約六百位訂戶。這些訂戶是來自各地的富翁與酒迷,基本上是一小撮較能接受計量經濟學方法的酒類收藏家。有多達三萬人每年付三十美元訂閱帕克的通訊《美酒鑑賞家》;相較之下,艾森菲特的訂戶少得可憐。
一九九○年代初,《紐約時報》(New York Times)頭版有篇文章介紹艾森菲特的預測方法,他的觀念引起更廣泛的注意。帕克對一九八六年波爾多葡萄酒的評價是「非常好,甚至極好」,艾森菲特的看法卻大不相同。他認為那年生長季的溫度低於平均值,收成季的雨量又高於平均值,釀出的葡萄酒註定品質平平。
文章中真正的震撼彈是艾森菲特對一九八九年波爾多葡萄酒的預測。那些酒放入桶子裡還未滿三個月,甚至沒有酒評家品過,艾森菲特卻已預測那個年份的酒質將是「世紀之最」,保證「非常出色」。依據他的標準,一九六一年的波爾多葡萄酒若是一百分,一九八九年的波爾多可高達一四九分,他大膽預測,「將創出三十五年來最高售價」。
酒評家都被激怒了。帕克譏諷艾森菲特的量化預估「荒謬可笑」,索科林說酒評家的反應「介於憤怒與恐懼之間,他真的得罪了一缸子人」。不到幾年,《美酒觀察》拒絕再為他(或任何人)的通訊刊登廣告。
傳統專家準備群起攻之,指出他的方法大有問題,無法精確預測未來的價格。舉例來說,《美酒觀察》的品酒主管馬修斯(Thomas Matthews)抱怨他的價格預測「在二十七種酒裡只有三種準確」。他的「公式雖依據價格資料設計,他預測的價格有時會高於實際價格,有時又太低」。但對統計學家(或任何曾思考過統計學的人)而言,這其實是好事,有時高、有時低代表不具偏見。事實上,艾森菲特的預測凸顯出帕克最初的評比都偏高了,往往有向下修正的必要。
一九九○年,艾森菲特更進一步獨排眾議。先前他宣布一九八九年波爾多葡萄酒是世紀之最,他從資料中看出一九九○年的酒質更佳,而且將此發現公諸於世。回頭來看,《液體資產》預測之準確讓人驚訝,八九年的波爾多葡萄酒品質確實很好,九○年的酒質也確實更好。
怎麼連續兩年產出世紀最佳的葡萄酒?原來自一九八六年以後,沒有一年的生長季溫度低於平均值;事實上,有長達二十多年的時間,法國一直享有宜人的氣候。那兩年特別適宜釀造柔順的波爾多葡萄酒;對葡萄酒愛好者而言,這當然是好事。
現在,傳統專家比較注意氣候了。多數人並未公開承認艾森菲特的預測準確,但他們自己的預測確實比更貼近艾森菲特簡單公式的計算結果。艾森菲特的網站 www.liquidasset.com 還在,但已沒有發行通訊。他說:「那些品酒家和以前不一樣了,不會再犯嚴重的錯誤。坦白說,是我自己斷了自己的生路,我已沒有什麼利用價值。」
批評者視他為異端,唯恐他揭開品酒世界的神祕面紗。他揚棄花稍無意義的詞彙(如「強勁」、「堅實」、「輕盈」),直接說明預測的根據。
業者的反彈不只關於品酒美學。凱塞說:「酒商與評論家就是不希望大眾太深入了解。最早的爭議源自八六年份的酒,艾森菲特說那些佳評都是騙人的。那一年其實很糟糕,雨水太多,溫度又不夠高,但當時所有的酒評家都說得天花亂墜,強調那年的酒有多好。事實證明,艾森菲特是對的,但觀點正確未必受歡迎。」
酒商與酒評家為顧及自身利益,當然有必要持續壟斷有關酒品質的資訊。酒商利用永遠過高的初期評比來穩定酒價,《美酒觀察》與《美酒鑑賞家》更因投資了幾百萬美元在裡面,不能輕言放棄品酒界的龍頭地位。正如美國作家辛克萊(Upton Sinclair)及後來的美國前副總統高爾(Al Gore)所說的:「如果一個人因不懂某件事才賺得到錢,自然也很難讓他搞懂。」酒類也是如此,艾森菲特指出:「必須讓很多飲酒的人都認為我的公式沒用,那批人才賺得到錢。現在突然間讓那些人的工作失去價值,他們當然不會高興。」
不過我們看到一些改變的跡象。布洛班(Michael Broadbent)是倫敦佳士得國際酒類部門主管,他的說法很有技巧:「很多人認為艾森菲特是個怪咖。我想從很多方面來說,他確實是怪,但幾年下來,我發現他的觀念與研究很準,對想要買酒的人確實有幫助。」
棒球界的艾森菲特
品酒專家的浮華世界似與棒球毫不相干,但就很多方面而言,艾森菲特對前者的影響就如作家詹姆斯(Bill James)之於棒球界。
詹姆斯在自編的年鑑《棒球摘要》(Baseball Abstracts)裡,對棒球專家僅憑目測就能挖掘明日之星提出質疑。路易士(Michael Lewis )在所寫的《魔球─逆境中致勝的智慧》(Moneyball )裡指出,詹姆斯是棒球界主張資料導向決策的第一人。詹姆斯的論點簡單有力,他認為資料分析優於專家的觀察力:
要評估球員的潛力需要很多資訊,光憑肉眼是不夠的。請想想看,打擊率三成與二成七五的球員怎麼可能憑肉眼看出來?兩者的差異是每兩週多一支安打……。如果你一年看兩者打十五場球賽,有四○%的機率會看到二成七五的球員擊出較多安打……。優秀球員與一般球員的差異根本無從分辨─關鍵在於資料。
就像艾森菲特一樣,詹姆斯相信公式。他說:「評量球員的價值應該看他的得分貢獻。」因此詹姆斯設計了一套公式:
得分=(安打+保送)×壘打數∕(打數+保送)
這個公式較注重球員的上壘率,對常被保送者尤其給予較高評分。詹姆斯的數據分析法當然讓球探恨得牙癢癢的。如果說帕克之類的酒評家是靠味覺與嗅覺生活,球探就是靠眼力維生,那是他們的價值所在。正如路易士所說的:
你知道球探如何找到明日之星嗎?就是開車奔走六萬哩,住上百家破爛的汽車旅館,不知要在「丹尼」(Denny's )連鎖餐廳吃幾百次飯,才能在四個月內看完兩百場高中與大專棒球賽,其中一百九十九場完全沒有意義……。你走進球場,在補手正後方第四排的鋁質長條椅坐下,以便看到別人看不到的東西─至少別人看到了也不知其意義。你只要看到一次就夠了。「只要看一次,就知道了。」
球探和帕克那類酒評家的共同點不只是喜歡吐口水。正如帕克相信他只要嚐一口酒就可評斷酒的品質,球探相信看一眼就可知道某高中球員是否有發展潛力。
這兩種情況都嘗試預測未經試驗、不成熟產品未來的市值,只是一個是葡萄,一個是球員。兩種情況的主要爭議在於:究竟應該相信專家的觀察,還是量化的資料。
球探和酒評家一樣,常訴諸無法證明真偽的模稜語彙,如「他是真正的棒球員」或「他是天生好手」。
《魔球》裡談到,資料與傳統專家的衝突在二○○二年達到最高點。奧克蘭運動家隊(Oakland A)的總經理畢恩(Billy Beane)要徵選布朗(Jeremy Brown)。畢恩讀過詹姆斯的文章,決定依據數據用人。畢恩看上布朗,是因為他比其他大專球員更常被保送。而球探都不喜歡布朗,理由是他太肥。運動家隊的球探冷嘲熱諷說他若穿燈芯絨褲跑壘,「準會著火」。球探一致認為像他那種身材的球員不可能打進大聯盟。畢恩完全不在乎球員的外型,他的說法是:「我們又不是賣牛仔褲。」他唯一的要求是贏得比賽。事後證明,那些球探似乎都看走眼了,布朗比運動家隊那年獲選的其他球員都進步得快速。二○○六年九月,他首度以大聯盟球員的身分為運動家隊效力,打擊率高達三成(上壘率三成六四)。
詹姆斯最初嘗試散播數據分析結果的情形與艾森菲特極雷同。就像艾森菲特,詹姆斯先為他的第一份通訊《棒球摘要》刊登小幅廣告(他美其名稱之為一本書)。第一年售出七十五冊。就像艾森菲特被《美酒觀察》拒絕往來,詹姆斯要求艾利斯體育研究公司(Elias Sports Bureau)分享資料時,也同樣遭受冷落。
但這兩人已在各自的領域留下永久的印記。《魔球》一書詳細記錄了運動家隊的輝煌戰績,乃至波士頓紅襪隊在艾普斯坦(Theo Epstein)的資料導向管理下,贏得第一次世界冠軍,在在見證了詹姆斯恆久的影響力。傳統品酒作家後來開始參考氣候變化作更準確的預測,其實也等於默默向艾森菲特致敬。
這兩人帶動了統計研究的風潮,不少人對他們的數據分析大表認同。詹姆斯激勵了美國棒球研究學會(SABR)的成立,現在甚至有一個術語代表棒球領域的數據分析─棒球統計學(sabermetrics)。艾森菲特則是在二○○六年發行《美酒經濟學期刊》(Journal of Wine Economics)。現在還有一個酒類經濟學家協會;毫不令人意外,艾森菲特就是首任會長。事後看來,艾森菲特初期的預測超準。我查了一下拉圖堡(Chateau Latour)最近的葡萄酒拍賣價,一九八九年份的售價果然是八六年份的兩倍有餘,九○年份的售價更高。帕克,你能不心服嗎?
美酒的真相
本書旨在說明數據分析在品酒與棒球界的興起絕非單一現象,這兩個例子是本書探討內容的縮影。我們正處於馬車與火車競賽的歷史轉捩點,直覺與專業經驗一次又一次敗給數據分析。過去,很多決策都是依據經驗與直覺的某種組合,專家憑藉個人數十年嘗試犯錯的經驗而廣受尊崇。一般人總認為專家最懂,因為他們已累積千百次的經驗,所以能夠在社會上生存、成功。任何人想要知道某個問題怎麼解決,問老經驗的專家就是了。
現在情勢轉變了。公私領域的專業人員愈來愈仰賴資料庫作為決策依據。避險基金的故事讓我們看到新品種的數據分析專家已然問世─姑且稱之為「超級數據達人」(Super Crunchers)─這些人透過大量資料集的分析,在看似不相干的事物中找到實證的關聯。你有大筆歐元部位需要避險嗎?他們可能會告訴你,你應該賣出由二十六種股票與商品組成的保守平衡標的,裡面可能包括美國連鎖超商沃爾瑪的股票。
什麼是「超級數據分析」(Super Crunching)?超級數據分析是影響實務決策的一種統計分析,通常是透過數量、速度、規模的某種組合作出預測。這種分析使用的資料集都很龐大─所謂龐大包括資料與變項。此外,分析速度也愈來愈快,往往資料剛出爐便能作出即時的數據分析。影響的程度更是不可小覷,這裡所說的可不是一小撮學院書呆子弄出幾篇聳動的文章,超級數據分析是因應決策者的實際需求而生的,甚至由決策者自己主導。
我說超級數據達人運用的資料集很龐大,這句話一點也不誇張。現在業者或政府的資料集往往不是以百萬位元(mega)或十億位元組(gigabytes)計,而是兆位元(tera),甚至千兆位元組(petabytes)。一個兆位元組相當於一千個十億位元組。兆位元一詞源自希臘文,原意龐然大物(或怪物)。事實上,兆位元組也確實是龐然大量─整個美國國會圖書館的藏書也不過大約二十兆位元組。本書的一個重點是告訴讀者要開始習慣這個單位。舉例來說,沃爾瑪的資料庫儲藏量超過五百七十兆位元組,Google 則約有四千兆位元組必須日夜分析。顯見資料採礦(tera mining)已不再是幻想故事的題材,而是此刻正在發生的事。
在一個又一個領域,「直覺主義者」與傳統專家都在與超級數據達人對抗。在醫界,「實證醫學」(evidence-based medicine )引發激烈爭辯,歸根究底,爭的是治療方法的選擇是否應該依據統計分析。直覺主義者當然不會輕易認輸,他們堅稱資料庫絕無法涵蓋專家窮一生經驗累積的知識,迴歸分析也絕比不上一個有二十年資歷的急診室護士,她可能只要看一眼就能判斷一個小孩是否「不太對勁」。
當我們想到棋王卡斯帕洛夫(Garry Kasparov)會輸給電腦「深藍」(Deep Blue),總認為是因為IBM 的軟體太聰明。其實那個軟體就是一個龐大的資料庫,將各棋步的優劣進行詳細的比較。電腦的速度很重要,但電腦真正致勝的關鍵在於掌握了七十萬種棋賽的資料庫。卡斯帕洛夫的直覺敗給了資料導向的決策。
超級數據達人不僅侵入傳統專家的領域並取而代之,更改變了我們的生活。他們不僅改變了人們的決策方式,也改變了決策本身。棒球球探會敗給統計專家,不只是因為數據分析專家的成本比球探搭飛機跑來跑去低很多,也因為球探的預測比較不準。當然,超級數據達人與專家的意見並不是每次都不相同,有時候數據分析專家的結果還印證了專家的智慧。如果專家的預測百分之百都是錯的,甚至比一般機率還低,那這個世界也未免太扭曲了。但事實是,數據分析專家可以讓我們作不同的選擇,而且通常是更好的選擇。
我們在一個又一個領域觀察到同樣的現象:看起來完全不同的的資訊因統計分析而發掘出隱藏的關聯。假設你是政治人物,想要知道誰最可能捐款給你、用哪一種形式爭取選票最有效,你不需要猜,也不一定要遵循經驗法則,或是信任經驗老到的專家。現在,你也可以揀選不同元素的可測量效益,找出最能打動人的作法。透過資料庫的搜索,能夠揭露傳統專家永遠想不到的隱藏因素。我們周遭到處看得到資料導向的決策:
.租車公司與保險公司拒絕為信用評比低的人服務,因為他們從資料採礦得知信用評分與行車事故的機率有關。
. 有人取消機位時,航空公司不再優先給常客,而是給資料採礦結果認定最可能跳到別家公司的顧客。此外,很多公司不再採取先到先服務的原則,而是依據個別顧客的數十種狀況而定。
.依據「有教無類法案」(No Child Left Behind Act ),學校的教學方法必須通過嚴謹的資料分析,老師因而花費四五%的上課時間訓練學生通過標準化的考試。部分老師上課時甚至要使用經過統計評估的固定用語。
直覺主義者可要提高警覺了。本書將詳細介紹一連串讓人眼花繚亂的超級數據分析案例,以及案例的主角。超級數據分析革命並非只發生在棒球界或體育界,而是遍及日常生活的每個層面。很多時候,超級數據分析革命對消費者是好的,可以讓廠商與政府更準確預測民眾需要,但有時候可能形成對消費者不利的情勢,因為廠商能準確預測出從我們身上可榨出多少錢。
李維特(Steven D. Levitt )與杜伯納(Stephen J. Dubner )在《蘋果橘子經濟學》(Freakonomics )裡提出數十種例子,說明資料庫的統計分析如何揭露因果關係背後的關鍵力量。而李維特與唐納修(John Donohue )讓我們知道,看似不相干的事件,如一九七○年的墮胎率與一九九○年的犯罪率,其實有很重要的關聯。(這兩人都是我的好友,也曾合作寫書,本書後面會再提到他們。)但《蘋果橘子經濟學》並未討論量的分析如何影響實務決策,而這正是本書要補足的重點。事實是,產業內、產業外,有許多人正透過你想不到的方式將統計分析運用在各項決策上。
電腦資料庫的容量大增,正讓全球產業改變風貌。一九五○與六○年代,人們曾經預期(又害怕)在強勢政府與企業的主導下,精密的社會工程(social engineering )將席捲全世界─例如派卡德(Vance Packard )所寫的《隱形的說客》(The Hidden Persuaders)便反映出這種心理。現在,同樣的情勢似乎又在新一代身上出現。只是過去我們以為強勢政府會透過命令與控制解決所有問題,這次觀察到的,卻是超大的資料網路在發威。
我為何挺身而出?
我本身是一個數據分析專家。雖然我在耶魯教法律,在麻省理工學院讀博士時學的卻是經濟。我分析過各種領域的數據,從假釋金到腎臟移植、隱匿攜槍、無防護措施的性行為,無所不研究。讀者可能在想,這樣一個象牙塔裡的書呆子一定和現實世界的決策大大脫節(沒錯,我確實是那種心不在焉的教授,有一次要搭火車到波基普西市〔Poughkeepsie 〕,卻因寫文章太投入一直坐到紐哈芬〔New Haven)〕。但就連書呆子的資料採礦結果,有時也會影響現實世界。
幾年前,李維特和我曾合作探討一個很實際的問題─路捷失竊車輛尋回系統(LoJack )對汽車失竊率的影響。路捷是一種小小的無線電收發器,可以隱藏在汽車內很多位置。當汽車被通報失竊時,警察可遙控啟動無線電收發器,具特殊配備的警車便可找出失竊車輛的確切位置。路捷可說是很有效率的找車裝置,路捷這家公司很清楚這點,也很自豪地在廣告中宣揚失竊車輛的找回率達九五%。我和李維特想要試驗路捷是否有助於降低整體失竊率。很多防盜器的問題在於只是轉移犯罪目標,例如你的車子裝了方向盤鎖,大概無法遏止犯罪,頂多讓竊賊多走幾步路去偷另一輛車。路捷最厲害之處在於它是隱藏的。如果一個城市有很多汽車都安裝路捷,竊賊將無法得知哪部車裝了、哪一部沒裝。
李維特喜歡探討的就是這類怪問題。難怪《蘋果橘子經濟學》的評論家會說李維特看事情的角度與眾不同。幾年前,我剛好多一張球賽的票,便邀他和我一起去看麥可?喬登為「芝加哥公牛」出賽。李維特認為他若能更投入,會看得更有趣。但他不像我那麼在意公牛贏還是輸,因此,就在開賽前,他趕緊上網下注,押公牛贏。果然他看球賽時變得相當投入,網路賭博改變了他的動機。
從某個奇特的角度來看,路捷也能改變人的動機。在路捷出現之前,很多職業竊賊幾乎不可能被抓。路捷改變了這一切。現在警察不僅能找回失車,往往也能逮到竊賊。單是在洛杉磯,就有上百家贓車解體工廠因此被破獲。如果一個人在路捷使用率高的城鎮偷了一百輛車,幾乎必然會偷到裝有路捷的車。我們想要試驗的是,路捷是否能全面嚇阻竊車;如果可以,這便創造出經濟學家所謂的「正向外部效應」(positive externality )。當你在車上裝方向盤鎖,可能會使鄰車被偷的機率提高。但如果很多人裝路捷,我們認為可能對職業竊賊產生赫阻作用,避免別人的車子被偷。
我們最大的問題是說服路捷將銷售資料交給我們。我記得曾一再打電話溝通說服他們,我和李維特的假設如果為真,會讓消費者更有理由購買路捷。如果路捷讓別人的車輛失竊率跟著降低,或許路捷可以說服保險公司提供路捷使用者較多的折扣。最後,終於一位低階經理寄來一堆有用的資料,但坦白說,路捷剛開始對這項研究並不是很感興趣。
當路捷看到研究報告的初稿時,一切都改觀了。我們看了五十六座城市十四年間的汽車失竊資料,發現路捷對其他車主助益頗大。在高犯罪率地區,投資五百美元裝路捷,可讓未裝路捷的汽車減少五千美元的損失。我們將路捷的銷售數字依年份及城市細分,精確評估路上的汽車有多少比例裝了路捷。(以波士頓為例,當地規定的汽車保險折扣最多,超過一○%的汽車都有裝路捷。)我們要探討的是,當路捷使用者增加時,對全市汽車整體失竊率有何影響。由於路捷在各城市開始銷售的年份不同,我們在評估路捷的影響時,可輕易與同一年度的一般犯罪率分開來看。我們在許許多多城市都發現同樣的現象─隨著路捷裝設率增加,汽車失竊率明顯下降。保險公司給予路捷的折扣根本不夠多,因為他們沒有考量到,連缺乏保護的汽車也因路捷減少了保險理賠。
我和李維特都沒有買路捷的股票(坦白說,那是因為我們不希望改變自己的動機),但我們自知掌握了寶貴的資訊。我們的報告發表後,該公司股票漲了二?四%。我們的研究說服了更多城市採用路捷科技,也促使保險公司提供更多折扣(但還是不夠多)。
我要表達的重點是,我熱愛數據分析,我的角色等於是資料採礦咖啡廳裡的主廚。就像艾森菲特一樣,我在一份重要期刊《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)擔任編輯,必須經常評論統計報告的品質。由我來探討資料導向決策的興起,具備絕佳的視野,因為我既是這股風潮的參與者也是觀察者,能看熱鬧也能看門道。
本書重點
下面五章將詳述超級數據分析在整個社會的興起。前三章會介紹兩種基本的統計方法─迴歸分析與隨機試驗,說明量化預測的藝術如何重塑企業與政府。第四章討論實證醫學引起的爭議。第五章則介紹上百項試驗結果,以比較資料導向決策與經驗決策跟直覺決策之間的差異。
本書第二部分將退一步評估這個趨勢的重要性,探討為何在此時形成潮流,以及這是否值得令人欣喜。第七章檢視這股風潮中哪些人的損失最大─包括失去地位與裁決權。最後一章要展望未來,超級數據分析不代表直覺將被摒棄或職場經驗不再重要。我們相信在新時代裡,最聰明優秀的人必能同時善用統計與創意。
總而言之,本書並不是要全盤否定直覺或專業經驗作為決策依據的價值,而是要凸顯出這兩者的演變軌跡,以及如何與資料導向的決策相輔相成。事實上,我們看到一種新型的超級數據達人─如李維特─在直覺與數據分析之間悠遊往返,卻也因此比直覺主義者或統計專家看得更遠更廣。
中文版推薦序
超級數據達人的超級任務
輔仁大學統計資訊學系教授∕中華資料採礦協會 理事長 謝邦昌
伊恩.艾瑞斯是美國著名的計量經濟學家與律師,經常在美國公共電台的「市場分析節目」(Marketplace)擔任評論員,也是《富比世雜誌》(Forbes)的專欄作家。目前為耶魯法學院教授(William K. Townsend教授席)、耶魯管理學院教授,也擔任《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)編輯,著作等身。很榮幸能幫他的新書《什麼都能算,什麼都不奇怪──超級數據分析的祕密》中譯本寫推薦序,這本好書介紹的是數據分析──讓你我都身陷「數海」的解救者。
數據分析無所不在
大多數科學家在面對數據分析時,都會問「我該收集什麼數據」、「從數據中我可以作出什麼結論」,或是「對於結果,我可以相信多少」之類的問題。其實,統計學與資料採礦(Data Mining)是數據分析(data analysis)的科學,用來處理歸類分析數據的問題並作出決策。處理問題所用的一些數據分析方法,例如假設檢定、線性迴歸分析、標準差及信賴區間……等等,我們在科學上都很熟悉。
許多傳統的數據分析方法是在一九二○年到五○年之間發展出來,而這段期間的數據分析學家包括費雪(R. A. Fisher)、尼曼(Jerry Neyman)及荷特林(Harold Hotelling)等人。到了一九八○年代以後,因為電腦的快速發展,硬體速度愈來愈快,軟體解決問題及運算的能力愈來愈強,使得數據分析的理論及新的數據分析方法論受到很大的影響,諸如一些在電腦應用上發展得不錯的數據分析方法論,都是統計學與資訊科學的結合,而這些新的方法現在都大量運用在數據分析上。
幾乎每個領域都需要使用數據分析作為分析工具,甚至扮演舉足輕重的角色。當然並非沒有數據分析就無法運作,但有了數據分析加入,可以作出更好、更精緻的決策,因此數據分析可應用的層面是無所不在的。
管仲曾說:「不明於計數欲舉大事,如舟之無楫而欲行於大海也。」(《管子?問篇》)意指在不清楚相關數據的情況下想做大事,無疑像沒有槳的船想航行於汪洋大海中。《什麼都能算,什麼都不奇怪》列舉許多數據分析協助成功決策的例子,從紅酒的品味公式、賭場的輸贏、治國的機率分析、醫生應如何看待實證醫學,到棒球及職業球賽,都是利用數據分析的結果作決策並掌握趨勢的實證例子。