序
如何閱讀本書?
樂於從事別人似乎恨之入骨的事情,感覺真的很怪。我從一堆數字當中,梳理出有助於人們過得健康長壽的知識。然而,如果我告訴朋友們,統計學是我的熱愛,他們會奇怪地看著我,好像我有溝通障礙才會當個統計學宅男。
我認為,統計學被教授的方式,尤其是統計學教科書,使得大部分人們認為學習統計是一種虐待。統計學教科書很厚又很無聊,而且很貴。因此,我跟編輯建議我要寫一本很薄又很無聊又很貴的書。他考慮了一下,但最終決定我必須要有更好的點子。所以我是這樣想的:典型的統計學教科書(1)告訴你怎麼跑統計,而非如何了解它,(2)充斥著公式,以及(3)一點也不有趣。我想,是否我可以寫一些聚焦於(1)如何了解統計,(2)避免公式,以及(3)有趣的東西。
於是,我想到了要用說故事的方式,來寫這本書。聖經的第十誡有提到,「你不應該貪圖鄰居的房子、妻子、驢或牛。」但沒人會這樣對話。取而代之,人們會說「隔壁的草地比較綠。」假設你不知道「隔壁的草地比較綠」來自於一個古老的有關羊吃草的故事,故事是這樣的,羊兒們每天快樂地在自家草地吃著綠草。有一天牠們心血來潮,抬頭張望了一下,發現隔壁橋下靠近溪水的草地比較綠,於是就跑過去吃那邊的草。吃著吃著,牠們又抬頭張望了一下,覺得還是原來吃草的草地比較綠。於是,牠們就這樣來來回回地過橋吃草,總覺得隔壁的草地比較綠。我最後一次聽見這個故事是我還在幼稚園的時候,但我現在仍然記得它以及它的意義。十誡說的道理一點也沒錯,但很難記住,因為它只告訴你應該要做什麼,而非它的意義。我的意思是,說故事能幫助你了解事情的意義,所以終其一生都很難忘記。
本書各章就像故事一樣,讀起來簡短又有趣。本書的另一個特色──討論區,稍微嚴肅了一點。討論的題目非常多樣化,通常會有一個值得深思的問題,其他的題目可視為調劑學習之用。像是,討論關於數學常數e的起源。
如果你有一些統計基礎,大可隨意瀏覽本書。否則,你應該從頭讀到尾。前十二章涉及一些最基本的概念。例如:平均、變異、分配以及信賴區間。接著有幾章論及假設檢定與p-值。最後討論迴歸分析──這也是我在工作上最常使用的統計方法,以及決策──這通常是統計學應該扮演的角色,但卻往往不是。本書的最後三分之一內容,從「比約翰湯米多一個」這一章開始,專注於討論各種統計錯誤,因為我認為科學就是嘗試錯誤的學習。在教學時,我會給提出蠢答案的學生獎勵分數,因為我們往往能從這些回答上面學到東西。以p-值而言,只有在你看過其被誤用的方式以及思考為何會犯下這樣的錯誤之後,你才能夠真正了解p-值的意涵。最後這幾章,能真正地充實你的統計知識。
本書的能與不能
誠懇地希望,在讀完本書之後,你將能夠掌握許多統計的關鍵概念。我也希望你將能夠避免那些常犯的統計錯誤。
因為我並沒有在本書呈現任何統計公式,所以你並不能夠確實進行計算與分析。如果你想要為你的研究或課堂作業進行統計分析,你必須查閱有公式和分析步驟的傳統統計教科書。此外,本書也並不能如傳統教科書一般,有專文索引能提供你查閱忘記的東西。所以,如果你的目的是跑統計分析,本書不應該是你唯一購買的書籍(即使它很適合你買來贈送給親戚、朋友、同事、鄰居以及路人甲)。另一方面,如果你是那種不想親自進行任何統計計算與分析的人(這世界大多數人都是),但必須了解與詮釋你遇到的統計──這部分人比你想像的要多,那麼本書也許正是你所需要的。
研究設計的部分在哪裡
我是個設計導向的統計學者。舉例來說,缺失值在醫學研究裡是個大問題。統計學家已經提出許許多多處理缺失值的複雜統計技術。我個人的貢獻在於提出一個非常簡易的降低缺失值的方法,也就是在一開始時,電訪在家的病人並只問兩個問題以代替冗長的問卷。依照這個方法,我們把缺失值的百分比從25%降低至6%,那麼複雜的缺失值處理技術就顯得多餘了。
因此,你也許會訝異在本書中並沒有研究設計的段落。簡言之,這是因為我不認為研究設計可以獨立於統計之外並另闢章節。有專門的兩章分別介紹迴歸分析與威寇森(Wilcoxon)檢定,這是因為理論上,你可以分別操作它們。然而,你並不會認為,在進行迴歸分析或是威寇森檢定時,可以完全不考慮你在分析的研究設計。據此,我沒有特別寫一章討論研究設計。相反的,關於研究設計的評論已然交織於本書內容當中。
關於本書的故事與數據
當我開始寫作的時候,編輯告訴我說:「安德魯,我要你寫出一本,到目前為止,最有趣的統計教科書。」所以我是這麼想的:「太棒了,那麼我只需要寫下一則笑話就完成啦!」
的確,事情並不會如此簡單,但也並不是那麼遙不可及。從任何一點來看,本書的故事與數據都有助於你學習統計。這有時意謂著,簡化與修飾有益於理解。在一些案例裡,我模擬數據(統計術語「模擬」就是憑空捏造的意思)。我這麼做是因為我手上的數據過於複雜,可能會讓讀者無法專注於理解統計概念。此外,你也會對一直看見前列腺癌厭煩──這是我目前主要的研究工作。
因此,接下來的故事與數據並不會100%貼近事實。我並不認為這會有所誤導,但請不要用本書去診斷瑞典男性血球數(參看〈梯盤棋與血清血紅蛋白水平:常態分配的見解〉),前列腺癌(參看〈何時拜訪芝加哥:關於線性與邏吉斯迴歸〉),非洲裔美國人叫一輛計程車要多久時間(參看〈永遠不會發生在我身上的一些事情:你為什麼不應該比較p-值〉),或是我朋友麥克(參看〈迴歸單身的麥克:一位條件不錯的朋友仍然單身的統計解釋〉)。或甚至是否「恐嚇從善」計畫,有助於少年犯避免往後的犯罪生涯(參看〈乾牙刷的機率:p-值到底是什麼?〉):我說它並不奏效,但是不要照單全收我的話,你自己去查查看(www.cochrane.org)。畢竟本書之目的是在闡述統計,而非制定什麼打擊犯罪政策。
我確實為這本書分析數據並且毫無迴避地呈現我發現的結果。你應該能夠複製我的分析。大部分的原始數據在網路上都找得到,但是如果你找不到,請讓我知道,我將看看該如何幫助你。附帶一提,我使用費雪精確檢定。分析本書大部分的類目式數據。
我想要答謝普由(Pew)研究中心(www.pewresearch.org)發布其對美國大眾所做有趣調查的原始數據。對跨宗教婚姻所持態度的數據,修改自2006年北愛爾蘭生活與時代調查(www.ark.ac.uk)。美國1996年犯罪統計採自於www.statcrunch.com,這是對教學很有用的數據來源(但是,需要訂閱才能使用)。針灸與頭痛數據可下載自www.trialsjournal.com/content/7/1/15(你也可以讀到一些我關於數據分享的想法)。前列腺癌數據(和瑞典男性血球數)來自於我和我的同事漢斯.莉亞(Hans Lilja)所進行的一系列研究。在醫學數據庫「PubMed」(http://www.ncbi.nlm.nih.gov/sites/entrez),使用關鍵字「Vickers Lilja」搜尋,可以找到更多的數據。產假的數據來自於珍妮.戈尼克(JanetGornick)的研究(參看Families That Work: Policies for Reconciling Parenthood and Employment. New York: Russell Sage Foundation, 2003)。
譯者序
現今,統計教學已然蔚為顯學。諷刺的是,不是因為這門學科很有趣,而是因為很難懂。老師們對於統計課程的有效教學,往往一籌莫展;學生們對於統計課程的莫名恐懼,每每澆熄了其想要做研究的熱情。統計是一種科學方法。如果一個國家的統計教育處於奄奄一息的地步,那麼這個國家的科學發展就會受阻,影響可謂深遠。
既然要有效教學,就要從教學法著手。行為學派的教學法,強調胡蘿蔔與棍子。以統計教學而言,這根棍子打下去可不得了,因為統計學科的標準化紙筆測驗,很可能讓你得到難堪的分數,從此恨之入骨。認知學派強調輸入與輸出。老師使出洪荒之力,在黑板上寫下一堆統計公式,企圖把十年功力如醍醐灌頂般地傳授給學生,然而個個消化不良,殊不知輸入與輸出只存在於電腦世界。這些都對統計教學造成了傷害。
要學好一件事,首先必須不能討厭它;要學好統計,首先要去除對統計的厭惡感。因此,基礎統計學課程的教學目標,反而不是汲汲營營於認知與技能方面的東西,而是要把學習情緒當作是最先要處理的課題。感謝一些統計學家注意到這方面的重要性,一些不那麼生硬的教科書應運而生,如同本書。
本書作者有豐富的實務經驗,結合了許多趣聞,以深入淺出的方式把統計觀念介紹給讀者。我把這本書定位在統計學輔助用書,如果是正式的統計學課程,建議搭配一本有系統性內容的基礎統計學教科書。然而,請不要誤會「輔助」二字為「不重要」,這本書所探討的內容極為重要,很多地方都是基礎的衍生,甚至有一般統計學教科書所達不到的深度。如果同學們進行小組合作學習,探索討論區問題的可能答案,那麼透過這樣的訓練,漸漸地,你會發現,你的研究報告讀起來很有深度且具有個人風格,而不是只有統計數值的堆砌。
由於作者背景的關係,書中案例偏向於醫療領域。然而,統計觀念是跨學科領域的,牛牽到北京還是隻牛;t-檢定不論用在教育學、心理學或社會學,都還是t-檢定。書中所探討的統計分析,只有一小部分是醫療領域常用的技術。這也不打緊,因為多一點點的醫療知識,其實對個人身心健康很有幫助,尤其在現今醫病關係緊張的年代。
統計學有許多很繞口的名詞。有時候,完全相反的名稱卻是代表同一件事。例如,本書所提及的單變量迴歸(univariate regression),指的就是二變量迴歸(bivariate regression)。前者以獨變項作為計算單位,所以只有一個獨變項;後者是二變量相關分析(bivariate correlation analysis)的進化版,也是只有一個獨變項。有時候,多變項迴歸(multivariable regression)指的就是多重迴歸(mutiple regression)。如果你學習統計時發現類似的情況,請不要惱怒,因為甚至有專文探討到底名字要怎麼取。這件事實告訴我們,只要懂得其分析結構,讀者們大可以繞過這些似乎是來自於外星球的語言,逕自取名為自家寵物的名字。
本書原價約42塊美金,換算成新台幣之後,約是一位研究所學生十天的飯錢,這實在是不小的負擔。有鑑於中文類的統計學教科書選擇性不多,引進此種風格的原文書實屬必要。「引進」的模式有一個好處,就是讓知識產權降價,造福廣大的中文讀者,這也是我翻譯統計學教科書的主要目的。這種模式,從我的第一本譯作已被兩岸四地各類型大學圖書館收藏的情況看來,已然發酵。
最後,不論你是在書店隨手翻閱到本書,或是在統計課的建議閱讀書單上看見本書,甚或是在圖書館的書架上不小心瞄到本書,我都要說聲恭喜,因為你將以極低的代價,得到幾乎是原汁原味的東西。願展讀愉快!
杜炳倫
台北