新版譯序
鄭惟厚
天下文化的編輯說,《統計,讓數字說話!》要出「新版本」了,要我寫序。這是我生平翻譯的第一本書,是民國87年11月出版的,到現在竟然已超過十年了。十年還在賣,而且能夠以新面目見人,代表了它「長銷書」的地位,身為譯者,與有榮焉。
當初天下文化找我翻譯時,我是懷著忐忑的心情接下這份工作的,因為從來沒翻譯過書,對於會做出怎樣的成果,還真是沒有把握。那時有不少翻譯書,看起來都像是「直譯」的,把英文直接翻成中文,連英文語法都保留,不管中文裡面有沒有那種語法。這種書讀起來的感受,就是「折磨」兩個字;逛書店時只要翻閱到這類文字彆扭的書,一定立刻放棄,即便書的內容似乎很吸引人。所以我開始翻譯時,心裡只有一個主要目標,就是希望翻譯出來的書,「不像是一本翻譯書」;這代表我得把原著內容消化吸收之後,再用自己的語言說出來。
這本書一開始的銷售量就讓天下文化大吃一驚。其後的幾年當中,曾經不知有多少次了,碰到有人跟我說,「我讀過妳的書」。一開始我都立刻更正:「不是我寫的書耶,是我翻譯的書」,總不能把人家作者的功勞據為己有吧。可是好像沒什麼用,還是一直聽到「妳的書」的說法;久而久之,我也就半推半就的覺得是我的書啦。什麼時候應該e一封信給作者道歉一下。從上述的讀者反應看起來,猜想我的譯寫目標應該有達成吧。而且還曾有好些讀者形容它是一本「可以看得懂的統計書」,和一般統計書給人的「遙不可及」印象對照起來,我覺得這句話對這本書「讚很大」!
第一本翻譯的書當然在我心裡有特殊地位,現在能以新面目現身,希望也有更多讀者會喜歡它。
2009年6月
前言
統計是什麼?
墨爾
統計是從數據中獲取資訊的科學。為什麼要學統計呢?因為在各行各業、公共政策,甚至日常生活當中,使用數據已經成為稀鬆平常的事了,讓我們先舉幾個例子,看看這本書要討論些什麼樣的統計問題吧。
政府宣布上個月的失業率是6.5%,這個數字到底是什麼意思?政府又是打哪兒得到這樣的資訊呢?(他們既沒問你、又沒問我上個月是否有工作,對不對?)這個官方失業率的精確度又如何?
根據蓋洛普的調查,45%的美國成年人因為安全問題而害怕在夜間外出。這訊息從哪得來的?有多精確呢?
根據醫學實驗的結果得知,按時服用阿斯匹靈可減低心臟病的風險。這些實驗結果為什麼可信?阿斯匹靈有多大效果呢?
懷孕期間服用班得廷(Bendectin)來緩解嘔吐症狀會造成胎兒缺陷嗎?抽菸會引起肺癌嗎?這兩個疑問都已經由統計得到肯定的答案。統計證據到底何所指?我們又為什麼可以說,有強烈的證據顯示吸菸會致癌,而對班得廷造成胎兒缺陷這件事,又為什麼只能做比較保守的結論呢?
在彩券及賭場愈來愈多的今天,因為誤算贏的機會而輸錢的人也愈來愈多了,賭徒可以從「平均數定律」(law of averages)中學到些什麼?有沒有什麼方法可以幫我們贏錢或者中彩券?
統計學的目的就是從數據中找訊息。數據雖然只是些數字,但它們還有上下文。比如說,光是10.5這個數字,本身沒什麼含意,但是假如我們得知,一個朋友的新生嬰兒出生時重10.5磅,我們會恭喜她生了個健康寶寶。數字配合著上下文,就和常識銜接上了,因此我們可做出判斷。我們知道10.5磅重的嬰兒相當大,而且也知道嬰兒不可能重10.5英兩或10.5公斤。數字加了上下文,就提供了訊息。
就因數據是有「上下文」的數字,所以做統計並不只是玩弄數字而已。希望你在讀這本書時,花在思考上的時間比計算上的要多。如果你期待的是一本充滿算式的數學書,可能就要有點兒失望了。雖然我們要用到一些基礎數學,統計卻不是數學,所以不妨放輕鬆,準備接收新概念吧!
我們的目標
為了討論如何從數據中找訊息,我們的研究分成三部分:
1. 如何產生數據
2. 如何整合數據
3. 怎樣從數據中得出結論
在第一部分中,我們將會介紹能夠生產出好的數據的統計設計(statistical design)。「樣本」(sample)和「實驗」背後的觀念,雖然很簡單,也沒牽涉到什麼數學,但卻是統計概念中很重要的部分。
第二部分中將談到如何進數據中探索資訊,包括圖形的利用及數值計算。我們通常稱這個主題為「資料分析」(data analysis),就是試圖了解資料中所含的訊息,並傳達給別人。
本書第三部分的內容是「統計推論」(statistical inference)。推論就是在利用機率,從數據中找出結論,並表達出我們對所得結論的正確性有多大的信心。
以上的主題是全書的骨架,支撐的內容是利用數據和機率做推理。我們會討論到民意調查對政治產生的影響、人體試驗的道德問題、試圖用數字誤導我們的人所用的伎倆,以及因果關係證據的微妙問題等等。
讀本書的目標應分成三個方面。
第一、了解統計概念本身;利用數據以及機率做推理的觀念,是值得注意的重大智慧結晶。
第二、獲得批判有關數學的立論之能力。很多人太輕易相信數字,只要有幾個看來可靠的數字擺在面前,他們並不深究立論的本質。另有一些人又疑心太重了,認為數字天生就是騙人的,所以從不相信數字。其實有關數字的立論就和其他事物一樣,有好有壞,而有些根本離題。加強一點對數字的了解,可讓你自己判斷,而不光是「接招」。
第三、可了解統計概念對公共政策以及其他學術領域的影響。
如何處理「不確定性」
資料會變。人會變,動物會變,事物也會變動,對同一個體多次度量同樣的標的,也會量出不同的結果。所以我們從資料得出的結論,也並不是完全確定的。統計學就是要和世上的變異性及不確定性正面交鋒。利用統計推理得到的數據,不會因為變異性及不確定性,而變得沒有用處。統計學可以分析數據,將一些有系統的型態從無所不在的變異性中抽離出來。統計學也可以做出一些雖不確定、但不確定性卻很小的結論。這世界上本來也沒有什麼是百分之百確定的。更重要的是,經由統計推論,我們可以有辦法聲明,所得結論的不確定程度到底有多少。
統計觀念及技巧的出現,就是在人們試圖對付不確定的資料時慢慢產生的。將近兩個世紀以前,天文學家和測量員面臨整合數據的困難:不論多麼小心,數據仍然無法吻合。為了處理資料的變異性,他們發展出了初步的統計技巧。
十九世紀,社會學出現的時候,為了描述個體及社會的差異,人們改革了舊的統計觀念,並創造了新的觀念。之後,為了研究遺傳理論及各種生物族群,統計技巧又更進一步。二十世紀前半發展出了可產生數據的統計設計,機率也開始正式用在統計推論上。
到了二十世紀中,已可清楚看到一個新的學科誕生了!由於各種研究領域都愈來愈重視數據,大家也愈來愈了解資料的變異性是不可避免的,統計學可說已成了一種核心方法。每個知識份子都應該熟悉統計推理,而讀這本書可幫助你達到這個目的。
導讀
數字真的說了什麼?
鄭惟厚
一聽到「統計」,你的第一個反應是什麼呢?是不是腦海裡會浮現出一堆數字,或者一堆圖表?似乎許多人對統計的印象就是這樣。這一類把資料做整理與綜合、以方便人們從資料中尋找訊息的方法當然也是統計,但只是統計裡面的小小一部分。這類統計很有用,但是稍微枯燥一點。另外一部分的內容就豐富、精采、有趣多了。聽我這麼說,你可能還有些懷疑,還是先舉幾個例子,也等於先替這本書的內容,大致做個「預告」:
A.有個朋友告訴我,如果要去拉斯維加斯或大西洋城,一種有系統的賭法是:這一把如果輸了,下一把賭注加倍;這一把如果贏了,下一把賭注就照舊。這樣如果連輸幾把,只要贏一把就可回本。聽起來很有道理。我如果照這樣玩,是不是可以贏錢?
B.股市可以預測嗎?
C.「吸菸可能致癌」好像是不容懷疑的事實,可是這種結論怎麼得來的呢?
D.民意調查(我指的是由公正的專業機構所做的民意調查)為什麼可以只問一兩千人的意見,就告訴我們大家是怎麼想的呢?
你一定同意,以上都是既實際又有趣的問題吧!這本書就給了我們許多這類問題的答案。
讓我們來看看這些問題的本質是什麼。問題A牽涉到機率和一種叫「期望值」的東西,第7章就在談這些,說明很淺顯易懂。讀完第7章,你就會知道問題A的答案,也同時會知道賭場和保險公司是靠什麼賺錢。
問題B和第6章第4節的內容有關,因為股市資料是隨著時間而變動的。那一節裡面介紹了這類資料的一些特性,也談到了預測的問題,對問題B提供了部分答案。
問題C牽涉到兩個變數(吸菸及肺癌)之間的關係。這種關係該怎麼度量?兩個變數之間如果有高度相關性,是不是可以說其中一個變數導致另一個變數(例如吸菸導致肺癌)呢?這些答案都在第5章裡面。
問題D的重點在於樣本如何抽取,第1章就談到了這個問題。只要讀完第1章,你就大致有了答案,如果想知道多一些細節,第8章有詳細討論。
從資料中推出結論
從以上的例子,是不是可以感受到:其實統計對我們每個人都很有用,可以提供給我們許多答案!
再舉一個例子:某些媒體常常使用的叩應(call-in)民調,你覺得做出來的結果能代表廣大民眾的意見嗎?
多年前,我曾經在報上讀到一篇報導,報導說明:從民意調查的結果獲知,台北市民80%家裡曾遭小偷。這個數字太誇張了吧!你相信嗎?這倒不是寫報導的人存心欺騙,而是抽樣方法的問題。這項民意調查發問卷出去,而寄回的問卷當中,80%的人說曾被偷。因為問卷上還問到對於偷竊刑罰的意見,所以想想看,不怕麻煩填問卷再寄回的人,比較可能是被偷過的人呢?還是沒被偷過的人?這和叩應的狀況是類似的。當然,如果結果太誇張,你會猜到有問題;可是如果不那麼誇張呢?
我們現在經常聽到、談到別人「餵」給我們的資訊,比如各種民調結果(民眾對候選人的支持率、電視節目收視率、政府官員施政滿意度等等)、股市預測、新藥測試(每種新藥上市之前,都要經過一定的測試程序)等等。
這幾個例子看起來沒多大關係,其實有一個共同點:都是在做推論。民調根據樣本(大多數民調只調查一兩千人)的結果,告訴我們台北市民支持王建?、馬英九、陳水扁(依姓氏筆畫順序)的各有多少比例;股市預測是根據現有資料,推斷以後的狀況;新藥上市前所做的最後一道測試,則是根據小部分人對這個藥的反應,來評估這個藥對所有可能服藥者的有效性及安全性。從小小的樣本,卻要推到大大的全體;或從現在為止的資料,卻要推到未知的未來,當然都要有根據,而這些根據,都是推論統計的內容。
前面曾提到的光是整理和綜合資料的方法,有人稱為「敘述統計」,而推論統計則是要從資料中導出結論。
生活中的判斷智慧
相信你可以想像,要從資料中推導出結論,背後的學問當然很大,所以大學統計系學生要讀四年,可是你不需要傷這麼多腦筋,你只要有統計常識就可以了。
這本書給你的,其實就是統計常識。它原本是教科書,作者墨爾教授任教於美國普度大學,他在教一門統計通識課程時,完成並修訂這本書。那門通識課程的對象主要是文科學生,這些學生大部分以後並不準備再修習任何統計方面的課。對他們來說統計不是工具,是常識。本書以這種理念為基礎,所談的都是觀念及統計方法背後的推理過程。整本書裡面看不到幾個數學公式,作者用了許許多多和日常生活相關的實例,利用敘述的方法,把統計最重要的基本概念解釋得清清楚楚。在讀到這本書之前,還真不相信統計書可以寫成這麼「不專業」、這麼可讀。
這本書的可讀性高,內容又非常生活化,天下文化把這本書納入「科學天地」系列,介紹給大家。原本書中每一節都有很多習題,考量閱讀的連貫性和篇幅的問題,在翻譯時略去了這些習題。
讀這本書,你可以得到清楚的統計基本知識,而大多數人都可以從這種知識獲利。如果你的工作和行銷有關,市場調查就是一種民意調查,當然市場調查的方式有許多種,簡單到複雜、低成本到高成本都有,但你必須考慮樣本代表性的問題。如果取樣本的方法不對,做出一個誤導的結果,很可能比完全不做還糟糕。如果你在製造業,品質管制的概念就是統計。各種保險的保費怎麼算的?根據統計的期望值觀念。航空公司怎麼知道接受預定座位可以超過多少百分比?也要用到統計觀念。兩種藥哪種療效比較好?要做有效的比較,都要用到統計觀念。
統計的應用不勝枚舉,只要牽涉到資料的蒐集、整理與分析,就必須有統計的基礎,才能得到合理的結果。如果你是學生,不論學的是理、工、商、農、醫、管理,甚至教育等文科,你都需要接觸數據!你可能要做實驗、可能要做調查,也可能要讀別人的報告,基本的統計知識是必要的。甚至連學統計的學生,都可以受惠於這本書。因為一般的統計書也許強調方法、強調理論,這本書強調的則是觀念,會讓人有「茅塞頓開」的清新感覺。
我們或許不需要自己整理數據,但也要有統計基本觀念,才能得知資料可不可靠。當別人告訴我們數字說了什麼話時,我們怎麼判斷正確性有多高呢?這本書帶給我們基本的判斷智慧,讓我們可以去評估數字是不是真的說了那些話,而不必照單全收。
如果下次再看到如下的「報導」:「經過測試,某某方法減肥最具成效」或「根據調查,某某門號的大哥大通話品質最佳」,建議你不妨打個電話去問一下,測試或調查是怎麼做的?樣本如何取?樣本大小如何?看看他們如何回答,你再判斷要不要相信那則廣告吧!