★——————數據世界生存的必備武器——————★
大數據或許感覺遙不可及
但小數據卻在你我身邊、每分每秒影響著我們⋯⋯
你要如何掌握它?
◤本書會讓你更明智、行動更快速。做決策或形成任何意見前,請先一讀。◢
──賽斯.高汀Seth Godin
多懂一點統計,為自己儲備更多力量
找出數據中的隱藏資訊,做最有利的判斷
掌握立論的根據,你會更有說服力!
在數據當道時代,
培養統計素養,當聰明的數據使用者!
大數據太龐大、離我們太遙遠,
多數人無從取得,也沒有工具和技術來處理這些海量數據。
但是,數據就圍繞在我們身邊,著著實實影響著我們每一個決定和觀念的形成。
從食品標籤到天氣預報,從你的銀行帳戶到你的醫生的辦公室……
影響著你的健康、錢包、工作和人際關係……
這些和我們每一天的生活密切相關的數據,
在本書中,我們稱作────「日常小數據」。
我們相信統計、相信科學、相信權威,
但是,你看到的數據可能遭到有心或無意的操作,
或者,你根本誤讀了數據。
‧政治人物在競選廣告中有哪些話沒說出來?
‧記者用的是精準樣本數據,還是,只是拿出支持他報導的數據?
‧醫生說你的病是因為某種行為造成的,還是僅僅說兩者有關?
‧行銷人員在產品包裝上強調哪些重點,又為什麼要這麼做?
‧為什麼年報用圓餅圖顯示某些數據,卻用柱狀圖表示其他數據?
無論是商業、政策、廣告、法律、工程、零售、教養……各式各樣的問題都能透過日常小數據找出答案。
本書沒有複雜的統計分析理論,只介紹最重要、最實用的統計觀念,幫助你避開常見的數據陷阱。
有時候,你需要知道某些數據是新聞主播希望引起你的注意、政治人物想要你的選票、廣告主想賺你的錢;
但有時候並沒有其他考量──你就是得弄清楚這些數據,才能夠理解這個世界。
作者簡介:
約翰.強森博士John H. Johnson, PhD.
麻省理工學院(MIT)經濟學博士,艾吉沃斯經濟諮詢公司(Edgeworth Economics)總裁兼執行長,同時也是專業經濟學家、專家證人、作家與演講人。擅長以簡單直接的方式檢視複雜精密的概念,並且把這樣的技能帶入他的諮詢工作、論文研究,以及寫作與演講當中。
艾吉沃斯經濟諮詢公司是全球頂尖的經濟諮詢公司,強森博士在艾吉沃斯經濟諮詢公司服務名列財富百大企業的客戶、產業團體以及政府機構,提供諮詢與專家證言。在訴訟相關工作上,他指導企業並提供外部諮商,說明如何適當運用與解讀複雜的數據集合,並在現今某些利害關係甚鉅的企業訴訟中擔任專家證人的角色。在商業分析領域,他協助企業將複雜的內部數據集合轉換成策略性、可據以為行動的資訊,範圍涵跨各種不同的商業層面,包括人力資源、財務、行銷、製造與商業情報。
這兩個面向同樣都必須理解並善用大型、複雜的數據集合,他也把這些技能套用到寫作和演講上,協助人們避免陷入面對數據時常會犯下的錯,讓每個人都能成為更自信且謹慎的數據使用者,在專業上與個人生活上做出更好的決策。
麥克.葛拉克Mike Gluck
畢業於約翰霍普金斯大學,屢次獲獎的作家。
擅長將複雜的議題轉化成能讓人輕易理解的內容。他為廣告、網站、影片、年報及其他行銷素材撰寫文案,也和全美一流的組織密切合作,包括醫療保健、高等教育、製造與科技相關領域,將他們的商業目標轉化成富有影響力的行銷溝通訊息。
透過天生的好奇、明察秋毫的眼力以及深富策略性的心思,他得以追根究柢,刨出需要說出來的事,並找到適當的語言以高效率又高效能的方式傳達。
譯者簡介:
吳書瑜
台灣大學經濟學學士、英國倫敦大學(UCL)經濟學碩士。曾任職於公家機關、軟體業,擔任研究、企畫與行銷相關工作。目前為自由文字工作者。譯有《創新可以更好、更快、更有效》、《如何打造社會企業》等書。
各界推薦
名人推薦:
各界好評/
這本書會讓你更明智、行動更快速。做決策或形成任何意見前,請先一讀。
──賽斯.高汀Seth Godin/《有機會,拚就對了!》(What to Do When It’s Your Turn)作者
數據,是我們的知識、好奇與創新的重要動力。但我們必須了解如何詮釋數據,才能善用隱藏其中的豐富可能性。強森與葛拉克正在散播這份財富,以通俗的語言教導我們面對日復一日排山倒海而來的數據。這是一本寶貴的讀物!
──布拉德利.霍羅威茨Bradley Horowitz/Google相片與影片串流部門副總裁
在充斥著數據的現代世界裡,知道如何加以善用與解讀,是一項具有策略意義的優勢。在《一次看懂小數據》中,強森與葛拉克兩位作者帶領我們走過整段旅程,教導我們應該、以及不應該如何使用數據來做生活中的決策。文字淺顯易懂,還有許多讓人意想不到的幽默。我想不到有哪一本書會比這本更與大家息息相關。
──保羅.威爾許Paul Walsh/氣象公司氣象分析副總裁兼氣象學家
強森與葛拉克以充滿趣味和活力的方式,引導我們經歷各個重要步驟,成為善用周遭複雜數據的使用者。不要被書中的歡樂語調和平易近人給騙了,如果他們能成功教育我們(我確定他們一定能),將調教出更多有素養的數據使用者,我們可以管理自己的健康,以及,更重要的,創造更好的民主社會。
──艾絲特.杜芙若Esther Duflo/麻省理工學院經濟學教授、J-PAL貧窮行動實驗室共同創辦人兼共同主任
《一次看懂小數據》兩位作者巧妙的將應用統計學教科書去蕪存菁,變成一本最棒的書,凸顯我們今日身處的大數據世界中最相關、也最重要的部分,我大力推薦。
──約書亞.萊特Joshua D. Wright/喬治瑪森大學法律與經濟學教授、聯邦貿易委員會前任委員
媒體推薦:
帶領讀者穿越重重資訊迷霧,切中要旨,說盡了數據素養在今日的重要性。
──《出版人週刊》(Publishers Weekly)
寓教於樂,21世紀的必讀好書。
──《中西書評》(Midwest Book Review)
這應該列為所有高中生、新聞從業人員和新聞系學生的必讀書。
──《阿肯色商業新聞》(Arkansas Business)
名人推薦:各界好評/
這本書會讓你更明智、行動更快速。做決策或形成任何意見前,請先一讀。
──賽斯.高汀Seth Godin/《有機會,拚就對了!》(What to Do When It’s Your Turn)作者
數據,是我們的知識、好奇與創新的重要動力。但我們必須了解如何詮釋數據,才能善用隱藏其中的豐富可能性。強森與葛拉克正在散播這份財富,以通俗的語言教導我們面對日復一日排山倒海而來的數據。這是一本寶貴的讀物!
──布拉德利.霍羅威茨Bradley Horowitz/Google相片與影片串流部門副總裁
在充斥著數據的現代世界裡,知道如何加以善用與解...
章節試閱
Chapter 1
數據,數據,生活無處不數據
──日常小數據簡介(摘錄)
從早晨睜開眼睛那一刻開始,數據就環繞在我們身邊。
根據加州大學聖地牙哥分校全球資訊產業中心「資訊知多少」計畫的調查,一般來說,一個美國人每天平均要用到34個十億位元組(GB)的數據。
34個十億位元組是很大的量,1個位元通常可以容納1個英文字母或數字,根據英國國家廣播公司(BBC)引用的資料,如果你印出34個十億位元組的數據,這些紙張可以裝滿幾十輛小貨卡。這還只是你在家中主動取得的數據量,比方說電視、廣播、電腦和電話,還不包括存在我們身邊、或是在職場上得到的資訊,後者的數量很輕易就能超出這個數字2、3倍。
花1分鐘來想想你可能會接觸到的所有「日常小數據」。就先從你展開一天的前1、2個小時好了:
‧你睜開眼睛,看到的第一個數據──鬧鐘閃動的數字。──估計數據使用量:9個位元
‧你拿起手機,還沒下床,就已經先掃過12封電子郵件、一些簡訊、幾則交通訊息通知和熱門新聞提醒。──估計數據使用量:2.1個百萬位元組(MB)
‧你走進浴室,站上體重計,看到你昨天晚上根本不應該吃披薩的證據。──估計數據使用量:3個位元
‧牙刷能為你提供數據嗎?當然可以。如果你是使用電動牙刷,每30秒會以震動方式提醒你要換個位置刷,這樣的震動就是另一種型態的數據。──估計數據使用量:60個位元
‧叮!手機上的行事曆提醒你今天要和客戶開會。──估計數據使用量:43個位元
‧女兒要你在她的數學考卷上簽名。你如何知道你看到的就是全部?女兒有沒有藏起其他考卷沒拿給你過目?還有,分數代表什麼意義,和她的能力相符,還是只代表她有去上課或其他指標?──估計數據使用量:46個千位元組(K)
‧早上你如何得知新聞消息?奧勒岡大學一項研究指出,與閱讀網路新聞相比,閱讀紙本報紙可以記得更多內容。當你掃過標題時,你看到:
〈民調顯示,76%的美國人不認同國會〉
〈紅襪隊名列第一,連贏15場,取得7勝領先〉
〈天氣預報顯示,今天高溫攝氏21度,低溫攝氏14度〉
〈最新研究顯示,每天1杯紅酒,可降低罹患心血管疾病的機率〉
〈從預算數字看,聯準會將再度調降利率〉──估計數據使用量:3.1個百萬位元組
‧你在想,如果調降利率,房貸再融資的成本(時間和金錢成本)有多高。你開啟手機一套應用程式,寫下備忘錄(它會自動和你的電腦同步),並發送電子郵件給你的配偶。──估計數據使用量:2.2個百萬位元組
‧該上班了,你跳進車子,迎接你的是充滿數據的儀表板。油表燈亮了嗎?引擎溫度多高?胎壓狀況如何?有些數據是藉由警示燈提醒,有的是透過類比傳遞,有的則是顯示在數位螢幕上。──估計數據使用量:63個位元
‧油箱還有4分之1桶油,這代表什麼意思?為什麼油表顯示已經沒油了,你還是能繼續開車?──答案請見第6章。──估計數據使用量:26個位元
‧經過加油站,這家加油站標出的價格比對面那家每加侖便宜了4美分,但是只收現金。每加侖4美分的差價會影響你的選擇嗎?──估計數據使用量:2.0個百萬位元組
‧你停在星巴克買咖啡。你要買16盎司的大杯,還是20盎司的特大杯?你考量著多出來的價格(和多出來的熱量)。你點餐,然後讀每一小包代糖上的標籤,上頭涵蓋了各種營養成分的相關資訊。(真正的砂糖包和蜂蜜包不會有營養成分列表,所以很難和人工代糖比較。)──估計數據使用量:10.1個千位元組
終於到辦公室了,你開始上工。從你緊追新聞,到查看電子郵件、確認工作表、磋商合約、檢視銷售預測、打電話與參加會議,全都是數據,數據一整天如影隨形。
但是,以上這長串清單都還沒搔到皮毛,還不足以解釋數據如何影響你的生活。因為,除了這些數據之外,你還沒決定要去哪裡加油,以及該如何處理小孩的數學成績。
你可以利用數據做什麼?
《時代》雜誌指出,「我們擁有豐富的數據,但數據創造的報酬正快速下降。因為超過某個水準之後,獲得越多的資訊,就越難從中得出意義。」
聽起來心有戚戚焉嗎?不是只有你這麼覺得。
◤小數據,才是真正影響我們的數據
你或許聽過「大數據」。基本上,這類數據對一般人而言數量太過龐大,可以用海量來形容如果,沒有精密的軟體和強大的運算能力將無法處理。舉例來說,「彭博商業網」(Bloomberg Business)有一篇報導說,優比速公司(UPS)每部車蒐集200個數據值(該公司約有10萬部車),利用這些數據來節省閒置的時間與油料,報導指出:「每天每位司機少開1英里,1年就可為公司省下價值5,000萬美元的油料、汽車保養和時間費用。」
全世界都用大數據來解決大問題。荷蘭利用大數據進行水資源管理;食品外送公司利用大數據滿足客戶半夜的嘴饞;IBM利用以千兆位元組(PB)計算的數據,找出可能的食物感染源。
大數據很誘人,經常成為新聞標題。《富比士》一篇報導說,一些和大數據相關的職務,市場需求每年成長幅度超過80%。《華爾街日報》引用數字,說明各種與數據有關的方案計畫快速成長,指出商學院學生需要的「大數據永遠都不夠」。
然而,就像你在前文看到的,小數據──日常生活中位元或位元組很小的數據──通常可以發揮很大的效果,影響你的健康、錢包、工作、人際關係和其他,而且是每天。從食品標籤到天氣預報,從你的銀行帳戶到你的醫生的辦公室,日常小數據圍繞你身邊。
可惜的是,人們並不完全相信這些數據,就算這些資料就攤在他們眼前。
「事實不一定能讓我們改變心意。實際情況正好相反。」《波士頓環球報》一篇報導引用密西根大學的研究發現,接收到錯誤資訊的人,反而容易深信不疑,甚至在面對事實時,更加堅持自己的(錯誤)想法。(顯然,有些人就是死不認錯。)
但是,再多的傳聞也不會變成事實。舉例來說,即便所有鄰居都說今年是有史以來最熱的夏天,也不代表這就是真的。
「我認為,我們面對的最大問題,是過度解讀軼事證據。」艾蜜莉.歐絲特(Emily Oster)如是說。她是布朗大學經濟系副教授,也是《期待更好》一書的作者。當我們請教她一般人如何解讀日常生活中的數據時,她給了上述的答案。
「人都會想從個別的故事或經驗當中學到東西,」她補充,「你很難強迫自己忽略這些軼事,至少,你會把這些傳聞當成參考,試著從這當中得出結論,而不看數據。」
傳聞或許很容易讓人記住,或許很有說服力,但重要的是,事實是什麼。
◤脈絡很重要
我們還要謹記另一件事,在日常生活中,你或許會在脈絡下檢視數據,或是和其他數據比較。有時候,脈絡與額外的數據會有幫助,有時候卻會造成誤導。來看看以下的案例:
‧加州何爾摩沙海灘市,消防隊的平均反應時間只有5分鐘多一點。這樣的反應時間是好是壞?要詮釋這個數據,你可能會和過去的數據相比、和相似社區的數據相比,或是和其他數據相比。
‧休士頓喬治布希國際機場收到申訴,旅客抱怨行李送達時間拖太久。於是,機場管理處把行李提領區搬離入境區更遠的地方,這樣一來,旅客要花更多時間走路,而非等待。之後申訴案件就變少了,因為人們覺得提領行李的時間變短了。
‧我們會用不同的方式使用與詮釋不同媒體上的數據,比方說,你會不會覺得《華盛頓郵報》的網路版比紙本版更準確,因為前者是即時更新?你是否偏愛閱讀紙本雜誌,因為你可以把有趣的文章剪下來?就算同樣都是紙本書,你是否覺得精裝本比平裝本更有權威感?
賽斯.高汀(Seth Godin)曾在一篇部落格貼文中提問:「哪一瓶酒滋味更香醇?是餐廳裡最便宜的、一瓶只要30美元的酒,還是隔壁餐廳定價較高的同一款酒?」所以說,脈絡很重要。
當然,還有各式各樣的隱性數據是你不會察覺到的。比方說,《華爾街日報》報導指出,幾年前,如果你在夏天某個潮濕的日子,利用天氣頻道的應用程式查詢天氣,你可能會看到潘婷Pro‑V絲滑洗髮精的廣告(用來對付毛躁髮)。你會看到這個廣告似乎只是巧合,但實際上,廣告瞄準女性,並且根據她們查詢的地區,如果當地濕度高(會讓頭髮毛燥),廣告就會出現;如果濕度低,就顯示不同的護髮產品。當你查詢天氣,你也會看到廣告,但除非你在天氣頻道工作,不然的話,你可能看不出來兩者的關係。
在一個數據導向的世界裡,你不一定知道是什麼在導引數據。
◤當聰明的數據使用者
當一個聰明的數據使用者,你的任務是不斷問問題,了解你看到的數據如何影響你的生活。
你必須自問:
‧政治候選人在電視競選廣告中有哪些話沒說出來?
‧記者用的是精準樣本數據,還是,他只是拿出支持他報導的數據?
‧銷售預估仰賴哪些數據?
‧你的醫生是說你的病是因某種行為而起,還是僅僅說兩者有些關連?
‧行銷人員在產品包裝上強調哪些重點,為什麼要凸顯這些數據?
‧為什麼年報用圓餅圖顯示某些數據,卻用柱狀圖顯示其他數據?
有時候,數據試圖告訴你某些事,可能是產品、服務或觀點。有時候,光是知道新聞主播希望引起你的注意,政治人物想要你的選票,以及廣告主想要賺你的錢,你就能成為更好的數據使用者。但有時候並沒有其他考量──你就是須要弄清楚這些數據,才能理解這個世界。
而這也是本書的重點:幫助你在生活中辨識「日常小數據」,知道如何去解讀;並提出經過千錘百鍊的祕訣,幫助你避開常見的數據陷阱。你可以成為一個有素養的數據使用者,在生活中做出更好的決策。
我們開始吧。
Chapter 7
當心採櫻桃的人
──選擇性表述(摘錄)
◤何謂「選擇性表述」
英文片語的「cherry picking」,字面意為「採櫻桃」,引申為「選擇性表述」,起源很可能來自實際採櫻桃的動作。請這樣想:你在櫻桃園裡,帶著籃子和梯子,你的工作是用櫻桃裝滿籃子,拿到市場出售。你會跳過看起來受傷或還沒有成熟的櫻桃,你會用你能採到賣相最好的櫻桃裝滿籃子。因此,「採櫻桃」就用來指稱你會挑選其他人想要的東西(可能是數據或櫻桃)。
當然,「採櫻桃」的另一層意義,是指摘取最低處的櫻桃,這也是一種比喻性的說法。比方說,在籃球比賽裡,「採櫻桃球員」是指留在對手半場,在籃框下等待的球員,等隊友抄到球長傳,就可以輕鬆帶球上籃或灌籃。
就我們目的而言,我們談的「選擇性表述」,是指選擇最有利的數據,並忽略其他和預期結果相衝突的數據,以利立論。或者,就像一份研究說的:「取最好的,其他不要。」
那麼,你為什麼要當心選擇性表述?就像我們在第2章中看到的,當你檢視來自相同數據的不同樣本時,得出的結果可能大不相同。如果你故意這麼做,就有辦法得出你想要的結果。
來看看一家從午餐做到晚餐的餐廳。某一天,這家餐廳計算每小時有多少人來用餐,以下是他們得到的結果:
上午11點:2人 / 中午12點:25人
下午1點:30人 / 下午2點:3人
下午3點:0人 / 下午4點:2人
下午5點:28人 / 下午6點:35人
下午7點:5人 / 下午8點:3人
隔天,一位潛在買家想知道這家餐廳的生意好不好。「好極了,」餐廳老闆說,「我們午餐和晚餐時段都客滿,人都排到門外去了。」這位潛在買家離開,準備好要出高價收購這家小餐廳。
2分鐘後,房東走了進來,對餐廳老闆說要提高租金2倍。「你不能這麼做!」餐廳老闆說,「這個地方大部分時候都空蕩蕩的!」
當然,兩種說法都百分之百正確,但也都百分之百是選擇性表述。如果你只看午餐和晚餐的熱門時段,餐廳門庭若市。如果你僅看中餐到晚餐之間的時段,餐廳幾乎沒人。同樣的數據──不同的樣本和選擇性表述──得出的結果大不相同。
◤你也會做選擇性表述──對,說的就是你
到目前為止,你應該可以想到你在生活中會做的幾種選擇性表述。比方說,你可能做過:
‧填寫線上約會檔案
‧替同事寫推薦函
‧沒對伴侶說那個週末在賭城發生的事
‧決定今天不除草,因為好像會下雨
在上述所有情境中,你不可能用上所有的數據,你只會用你想用的數據。
當然,本來就不可能納入全部的數據。請想一想你的履歷,或是在LinkedIn網站上的檔案。從定義上來說,這些都是你過去所做所為的摘要,而且(多數時候)目的是為了幫助你得到一份更好的工作。那麼,你當然只會列出職涯重點,而且只囊括那些能讓你加分的項目。這仍是選擇性表述。你知道,你的主管知道,人力資源經理也絕對知道,也因為這樣,面試通常都設計成要揭開履歷上沒說的事。
◤只為娛樂
如果你是運動迷,你看過與聽過的選擇性表述的統計數據可能比一般人多很多。請想像一下:現在是1988年,你正在看一場世界大賽,今天是奧克蘭運動家隊對洛杉磯道奇隊。9局下半,2人出局。再過幾分鐘,我們就會看到道奇隊的柯克.吉布森(Kirk Gibson)打出棒球史上最讓人念念不忘的一計全壘打,此時,電視螢幕上出現了以下這些統計數據:「過去10年,在10次世界大賽中,有7次冠軍是由輸掉第一場比賽的隊伍抱走。」
這為什麼是選擇性表述?首先,播報員僅選擇談第一場比賽的輸贏。如果現場播報的就是第一場比賽,那還可以理解的。但為什麼他們把樣本集合限在過去10年?而不是5年?或20年?或30年?如果樣本集合不同,數據還會說出一樣說的故事嗎?
下一次,當你在看比賽(或是從收音機聽比賽,或是讀到報紙上的運動版)時,請看一看(或聽一聽)這類選擇性表述的統計數據。這些統計數據聽起來很有娛樂效果嗎?絕對是。可以幫助打發投球、牽制和傳球之間的時間嗎?當然。但有用嗎?沒什麼用。
◤覺得好一點了嗎?
在總結本章時,讓我們檢視行銷人員如何做選擇性表述,使得一般消費者難以看出各個品牌之間的差異。
來看看以下3種說法,來自於3家不同的醫療保健機構:
‧「____醫院22度被列為全美第一。」
‧「____醫院排名第一的專科超過全美任何一家醫院。」
‧「____醫院的醫生名列全美頂尖醫師的人數高於全美任何一家醫院。」
當你讀這些說法時,聽起來像是這3家醫院都希望你認為他們是最好的。但是,不管任何調查或研究,假設沒有3個機構並列第一的話,應該都只有1個第一名。
那麼,其他人怎麼辦呢?他們做選擇性表述,只為做出最強而有力的宣傳。
■面對選擇性表述,當聰明的數據使用者
當選擇性表述出現在你面前時,你要如何辨別?你可以從現在就開始做以下5件事:
1 首先,在尋找或使用任何統計數據時,閱讀小字說明。在嘉寶的範例中,我們可以從附註和免責聲明裡爬梳出很多資訊。進一步檢視警告、內文和註腳。當人們引用研究時──尤其是廣告主在引用時──你通常會看一位專家背書,有些是聯邦貿易委員會或其他機構規定一定要有的。要當聰明的數據使用者,請拿起放大鏡,好好閱讀小字說明。
2 第二,想一想你看到的數據是否出於任意(或有意義)的選擇,是否會導致特定的結果。比方說,運動界就經常可以看到任意選擇的數據。每當你聽到播報員說「在過去19場比賽裡……」或「自2002年以來……」時,就是在做選擇性表述。有什麼理由使用從特定時間點開始的數據嗎?你可能只是在聊季後賽,或是分析總統大選,或是檢視重要事件之前(或之後)發生了什麼事,比方說政策的改變,你都必須思考你看到的數據究竟是出於某個人任意的選擇,還是這樣的選擇實際上是有意義的。
3 第三,問一問少了那些數據。在嘉寶的範例中,我們看到有一群小兒科醫生根本不推薦嬰兒食品,另外還有一群不推薦任何特定品牌。當嘉寶提出「8成」的說法時,都沒有包含這兩群人。被忽略的數字,可能和被提出來的數字一樣重要。想一想裝了半杯水的杯子,樂觀主義者會說是半滿的,悲觀主義者會說是半空的,他們都是對的,但也都是選擇性表述。如果你想做出更好的決策,你需要全貌。
4 第四,不要賦予任何統計數據過多的意義,超越該有的程度。更全面的思考,不要被任何看來強而有力的單一數字左右,那可能是出於選擇性表述,無法精準表述全貌。如果一個紅襪隊球迷告訴他的兒子說,貝比.魯斯(Babe Ruth)在打者生涯中,被三振的次數達1,330次,小孩可能會認為這位球員很糟糕。
5 最後,多問問數據是從哪裡來的,這麼做永遠是對的。比方說,我們都很愛咖啡,這本書有一半的篇幅是在咖啡店寫的(我們需要用到一整頁的篇幅,才能向所有友善的咖啡師致謝)。然而,當你讀到美國國家咖啡協會的一篇報告,協會理事長與執行長說,現在人喝咖啡的量越來越大時,你無須驚訝。畢竟,國家咖啡協會的核心目標,是要「擁護美國咖啡產業的福祉」。不管你讀的是任何產業組織的新聞稿,當中的消息很可能都映照出這個群體積極的一面。(不過《華盛頓郵報》也有報導,「一份由奶油產業出資的相關的研究,發現奶油對人體不好。」)一如往常,當你在使用數據時,要想一想來源。
因此,下一次當你聽到主管說,因為「上個月銷量下滑」無法幫你加薪時,問問看他上一季,或是去年,或是過去10年的銷售狀況如何。
當你家中12歲的小孩吵著要看限制級的電影,理由是他「所有」的朋友都看過時,問問看他的數據集合有沒有把所有朋友都囊括進來,還是,他只算那些父母很酷的小孩。
還有,如果你聽到有人說「8成的人……」時,就該開始問問題了。
Chapter 1
數據,數據,生活無處不數據
──日常小數據簡介(摘錄)
從早晨睜開眼睛那一刻開始,數據就環繞在我們身邊。
根據加州大學聖地牙哥分校全球資訊產業中心「資訊知多少」計畫的調查,一般來說,一個美國人每天平均要用到34個十億位元組(GB)的數據。
34個十億位元組是很大的量,1個位元通常可以容納1個英文字母或數字,根據英國國家廣播公司(BBC)引用的資料,如果你印出34個十億位元組的數據,這些紙張可以裝滿幾十輛小貨卡。這還只是你在家中主動取得的數據量,比方說電視、廣播、電腦和電話,還不包括存在我們身邊、或...
推薦序
推薦序│成為更好、更聰明、更有信心的數據使用者
──德莫里斯.史密斯DeMaurice F. Smith/國家美式足球聯盟球員工會執行董事
2010年春天,美國國家美式足球聯盟(NFL)的眾家老闆們提出諸多期待,其中一項是延長常規賽季,多打2場比賽。身為球員工會的執行董事,我知道這不是一件好事。
賽事越多,在球場上發生的傷害就越多。目前的受傷率已經接近百分之百了。受傷率越高,運動員的職業生涯時間就越短,他們的平均職業年限也不過3年多一點而已。工會要面對的是重大問題,包括球員的安全、薪酬,以及如何保護這些人──在賽季,球員每星期都要在美國最受喜愛的體育賽事中拿自己去冒險。
職業美式足球是價值幾十億美元的產業,而且不斷成長。延長常規賽季,可能導致十多年來首度的球員罷工。我需要有確實的證明,想辦法把常規賽維持在16場。
我打電話給約翰.強森。
強森是經濟學、統計學與數據方面的專家,而且擅長化繁為簡,能夠以最簡單直接的方式,呈現最複雜的數據概念。他是我認識的人當中最聰明的一個,他有能力仔細而完整的解釋,也能針對不同的聽眾,以別出心裁的方式說明,最重要的是,他從來不讓人覺得無聊!
一如所有的美式足球迷,工會非常希望能挽救即將到來的賽季,不會因為罷工而終止。因此,我們把數據給強森,強森和他的同事們發展出一套模型,讓我們知道球員通常會在什麼時候、如何受傷,並且估算出賽季如果延長為18場可能會造成的經濟損失:利用數據預測球員的職業生涯平均會因此縮短多少。他們也和我們合作,量化每一場比賽為周邊帶來的價值,讓所有人理解罷工真正的經濟衝擊是什麼。
總而言之,強森有能力向球員、媒體說明數據,更重要的是,讓國家美式足球聯盟的老闆聽進去(「損失」這類字眼特別能讓他們豎起耳朵)。這份能力幫助我們做出決定,達成主要目標,捍衛旗下球員的健康與安全,並以一份為期10年的合約達成結論,這對國家美式足球聯盟球員的福祉和利益來說極具歷史意義。
本書最能代表強森的思路,我深信,這本書能幫助你在日常生活中做出更好的決策。在字裡行間,你將學會如何理解、詮釋與思考你每天都在使用的數據。強森和另一位共同作者葛拉克旁徵博引大量範例,直指議題核心,深入淺出,有時候還附贈讓人放聲大笑的歡樂。不要懷疑,在你閱讀這本書時,你會在每一次心有戚戚焉的「啊哈」時刻頻頻點頭,並質疑起你在居家和職場上看到的一切「事實」。
以下的事實不容否認:我們日常生活中的數據量快速膨脹,從四面八方朝你湧來。也因此,了解人們如何使用與濫用數據,是非常重要的事。我親身體驗過數據的威力,你無須像我一樣,和一些全世界最富有的人打驟死賽,也可以了解並管理你的數據。
只要你有在看電視、購物、有工作,或是在餐廳用餐,這本書便是為你而寫的。《一次看懂小數據》在這個重要的時間點上填補了嚴重的空白,當中蘊藏著真知灼見與無窮魅力。
這是專為你而寫的劇本,讓你成為更好、更聰明、更有信心的數據使用者。
敬請享用。
前言│我們來談數據吧
每天,你身邊環繞著媒體報導和其他消息來源,當中通常充滿著隱性的資訊──還有,錯誤的資訊。本書會幫助你找出這些資訊、解讀這些資訊,讓你成為有素養的數據使用者。
我們將在書中回答以下這些問題:
‧新聞報導上的假消息如何讓股市蒸發1,636億美元?(第6章)
‧日本福島核災是否可能預防?(第8章)
‧8成的小兒科醫師對於嬰兒食品的看法是什麼?(第7章)
‧你認為哪一位美國總統候選人真的在民調中領先?(第5章)
當然,還有……
‧愛吃烤起司三明治的人,性生活真的比較較美滿嗎?(第4章)
「日常小數據」目前還不是一個慣用詞,但遲早會的。
我們創造出這個詞,用來描述你在日常生活中每天都會碰到的大量數據。
而我們之所以寫本書,是希望幫助你在理解這些日常小數據時,更精明,反應更快。
因為,就算你沒有受過這方面的專業訓練,你仍必須解讀數據。
如果你是律師,你必須判斷證人提供的證詞是否為選擇性表述。
如果你是護理師,你必須了解病患的病症究竟是導致他發燒的原因,或者只是單純的相關性。
如果你是執行長,你會想預測下一季能賺進多少營收。
如果你為人父母,你會想知道自己的孩子是否高於(或低於)平均水準。
本書的主旨,是教你應用生活中的數據做出更好的決策。
我們會凸顯經常遭到誤解的數據概念,輔以真實與假設的範例做說明。在每一章結尾處,我們會提供5種讓你現學現賣的方法,你可以馬上一試。
你可以從頭到尾讀完這本書,或者挑選有興趣的章節。
在我們開始之前,先很快的提一下免責聲明:強森是專業經濟學兼統計學家,他日常工作和嚴謹的數據分析有關,常常替涉及千百萬美元訴訟的《財富》百大企業、產業團體或政府機關擔任專家證人。這本書基本上是基本統計概念的綜觀,而非完整的教科書。因此,如果你是律師型人格,最愛「被我逮到了吧」這種時刻,現在就可以闔上書了。好消息是,因為本書的用意是寓教於樂,我們還是會提供一些樂子,比方說,解釋為何你的油箱還沒空,名人是不是真的一死就要死3個,以及為什麼喝過期的牛奶沒問題。
好了,既然免責聲明說完了,我們就來談數據吧。
推薦序│成為更好、更聰明、更有信心的數據使用者
──德莫里斯.史密斯DeMaurice F. Smith/國家美式足球聯盟球員工會執行董事
2010年春天,美國國家美式足球聯盟(NFL)的眾家老闆們提出諸多期待,其中一項是延長常規賽季,多打2場比賽。身為球員工會的執行董事,我知道這不是一件好事。
賽事越多,在球場上發生的傷害就越多。目前的受傷率已經接近百分之百了。受傷率越高,運動員的職業生涯時間就越短,他們的平均職業年限也不過3年多一點而已。工會要面對的是重大問題,包括球員的安全、薪酬,以及如何保護這些人──在賽季,球員每...
目錄
推薦序│成為更好、更聰明、更有信心的數據使用者
前言│我們來談數據吧
1 數據,數據,生活無處不數據
──日常小數據簡介
2 挑戰者號的挑戰
──抽樣如何影響結果
3 你比其他人聰明嗎?
──加總、平均與離群值
4 你比用iPhone、聽電台司令的人更聰明嗎?
──區別相關性與因果關係
5 我們信仰統計
──眼見真的為憑嗎?
6 縮小的非洲
──錯誤表述與錯誤解讀
7 當心採櫻桃的人
──選擇性表述
8 明天太陽依舊會升起嗎?
──預測
9 外面的世界是一大片的叢林
──整合
結語
字彙
致謝
附註
推薦序│成為更好、更聰明、更有信心的數據使用者
前言│我們來談數據吧
1 數據,數據,生活無處不數據
──日常小數據簡介
2 挑戰者號的挑戰
──抽樣如何影響結果
3 你比其他人聰明嗎?
──加總、平均與離群值
4 你比用iPhone、聽電台司令的人更聰明嗎?
──區別相關性與因果關係
5 我們信仰統計
──眼見真的為憑嗎?
6 縮小的非洲
──錯誤表述與錯誤解讀
7 當心採櫻桃的人
──選擇性表述
8 明天太陽依舊會升起嗎?
──預測
9 外面的世界是一大片的叢林
──整合
結語
字彙
致謝
附註