前言
為什麼需要引用統計數字?
本書的第一版出版於2001年。那時Facebook、Instagram或Twitter尚未問世,網際網路仍處於科技改變世界的初期階段。隨著網際網路的發展,特別是社群媒體的崛起,開創了一個全新的時代——每個人,無論其專業背景如何,都可以表達自己的意見,並且有機會被廣泛聽見。早在2001年,我就對一個現象感到沮喪:人們常常因為自己的經歷而相信一些缺乏證據支持的觀點,即使這些觀點與現有證據相悖。然而現在,每個人都有了表達自己意見的平台,更容易找到數以百計支持相同觀點的人。在這樣的情況下,你能想像我有多沮喪嗎?
儘管網路上的觀點、個人故事和陰謀論可能令人信服,但身為研究人員,我們必須超越個人故事或激烈的爭論,尋找更廣泛的證據。例如:我們如何判斷疫苗是否真的會導致自閉症?我們如何評估公立學校的成效、教師工會是否有助於或阻礙有價值的改革,以及特許學校(Charter Schools)(或稱實驗學校)在教育學生方面是否做得更好?為了回答這些問題,我們需要良好的資料,並使用適當的統計方法來分析資料。
很多人對於統計數字抱持不信任的態度,甚至認為,技藝高超的統計學家「玩弄統計數字」、「利用統計數字說謊」。事實上,如果一位研究者正確地計算統計數字,他或她只能就統計值反映的事實而陳述,絕不可能誇大其詞,而且,統計數字絕對不會說謊;更甚者,訓練良好的研究者,可以透過各種方式詮釋統計數字。然而,若是沒有接受統計學訓練,無法了解統計學,只好接受統計學家的詮釋,不然就是全盤拒絕和否認統計數字。相信睿智的讀者,一定會選擇學習統計學知識,由自己詮釋必須面對的統計數字。本書的目的,就是以簡單、輕鬆的方式,引導讀者進入統計學的世界。
統計學的運用
人們總是喜歡奇聞軼事。然而,奇聞軼事常是絕無僅有,或只是少數人才會發生的經驗。做為人類,我們的認知限制之一,就是傾向於將自己相信的事實當作真理。譬如,我們偶爾會聽到:「我每天服用綜合維他命,所以二十年來我從未生病」、「我的祖母五十年來每天抽一包菸,她長壽健康活到90歲」、「我的父母以前也打我,我不也好好的嗎」諸如此類的言論主張。可能(也可能不是)對於那些訴說故事的主人來說,的確如此。然而,對於其他人,甚至多數的人而言,事實並不一定如此。統計學能夠協助我們從許許多多的人們身上蒐集資料和資訊,總結常人的生活經驗。針對數量龐大的資訊,統計學可以運用少量的數值,像是平均數,摘要其內涵。當然,將為數眾多的資訊總結於單一的數字,必然減損許多的資訊,尤其無法識讀不同人們的差異經驗。因此,讀者必須了解,統計學無法提供了解個別經驗的資訊;反之,我們運用統計學的目的,乃是試圖了解一群人,甚或全體人群的概括經驗。總之,個人的故事也許引人入勝,但有時候,了解常人的典型經驗也非常重要。因為這個緣故,我們需要統計學。
統計值能夠提出結論,用以描述群體之間的差異。舉例來說,某個家庭有四個孩子,兩男兩女,其中女孩比男孩長得更高,那麼,根據這家人的經驗,或許得到的結論是女生通常高於男生。可是,你我都知道,男性身高通常比女性更高,如果抽取一個男性的隨機樣本和另一個女性的隨機樣本,然後比較兩個群體的平均身高,即可知道結果。研究者時常進行諸如此類的比較:使用不同藥物的癌症患者,存活時間有沒有差別?不同的教學方法之下,學童的學習效果一樣嗎?男人和女人在電影的喜好程度上有何差別?若要回答這些問題,我們必須隨機選取樣本,從樣本蒐集資料,然後運用統計學加以比較分析。以這種方式所發現到的資訊,會比只是觀察隨意少數人的經驗更值得信賴。
統計學甚至可以用來檢視兩個變項的數值彼此之間有無關聯,並進一步進行預測。例如:我們可以運用統計學,分析抽菸是否更可能導致肺癌。多年來,菸草公司總是辯稱,抽菸與癌症兩者無關。雖然有些抽菸者罹患癌症,菸草公司仍然指出:(1) 許多抽菸者並未罹患癌症;以及(2) 那些罹患癌症的抽菸者,其實是因為其他一些生活方式(諸如不健康的飲食和缺乏運動)而導致。面對諸如此類的爭論,透過統計學的協助,現在許多的研究證實,抽菸與癌症兩者之間的確存在關聯。不過,我們也要知道,統計學乃是聚焦在總體的關係之上,而非指涉個別的個案,所以研究發現並不是證明每一個抽菸者皆會罹患癌症;反之,只是證實,平均而言,抽菸者罹患癌症的可能性較高。
稍微思考一下,讀者將會發現,透過統計學的運用,可以協助我們回答許多重要的問題,藉以了解事物之間的關係。例如:自尊與學業成就表現之間是否有關?從一個地方政府的毒品處遇計畫經費是否能夠預測暴力犯罪率?如果知道父親的身高,是否能夠正確預測兒子的身高?諸如此類的種種問題,都能透過統計學的協助,而判斷母體中的變項之間是否存在關係。近來,網際網路蓬勃發展,各式各樣的資料無時無刻被創造和蒐集。舉例來說,多數的網路使用者或是社群媒體成員,經常會提供一些資訊,諸如年齡、性別、居住地、每日收入、固定花費、社交朋友圈、經常造訪的網站、個人喜好的事物、目前的婚姻、交友狀態等等。透過統計學的協助,資料分析人員可以判斷,當你造訪某一網站時,投放何種廣告可以獲取你的注意力,或是如何吸引你瀏覽那些網站,甚至可以讓你慫恿你的朋友(即便你並不知道)購買一些商品。較之過往任何時刻,統計學和資料已經深遠地影響我們的生活中每一角落。考量這些事實,我們是不是應該花點心力,學習了解如何運作統計學?
如何使用本書?
較之傳統的統計學教科書,本書的內容相當淺顯、簡易。坊間的統計學教科書,大多篇幅龐大,鉅細靡遺地討論各式統計學議題,而且涵蓋許多技術性的內容,足令初學者望之卻步。這些資訊與知識的確非常重要,但有時候我們只是需要一本淺顯、簡單的教科書,告訴學生基礎的統計觀念,然後能夠上手應用。特別是對那些自認「數學不好」的學生來說,這將是一本友善的入門書籍。基於此一考量,本書提供許多統計學觀念的淺顯介紹,透過白話式的解釋,學生更能輕鬆學習統計學。
為了配合學習需求,本書每章概由三個部分組成。第一個部分簡單描述該章主題,包括特定統計值之意義和應用;第二個部分稍加深入說明,討論特定統計值如何運作,解釋計算的公式,以及補充特定統計值的長處、限制,或其適用條件;最後,每章也會提供範例,說明特定統計值實際的應用方式。本書每一章都會提供一、兩個範例,介紹如何計算和解釋統計值。每章結尾也會放置一些案例,說明如何撰寫統計分析結果,最後提供一些練習題供讀者參考。
另外,本書部分章節的內容略有差異。首先,有些章節介紹兩個以上的統計值,如第2章討論三個集中趨勢的測量(即平均數、中位數及眾數);其次,有些章節以說明統計的概念為主,而非介紹特定的統計分析方法,如第4章討論常態分布;另外,也有章節專論統計顯著性、效應量和信賴區間。還有,本書的篇章其實並不需要依序研讀,我們也不是刻意按照順序編排,只是將基礎的統計值與統計學概念放在較前的章節,稍後的篇幅再來介紹更為複雜的概念。所以,讀者並不必然需要閱讀前章才能了解後章,其實每章都是獨立的,讀者應就自身的不同需求而閱讀特定篇章。例如:如果你在統計課學習t檢定時,對於t檢定的理解沒有問題,但發現自己很難理解單因子變異數分析,那麼你可以跳過t檢定的章節(第8章),直接閱讀變異數分析章節(第9章);但如果讀者是個統計學的新手,提醒您,若要理解一些統計學的概念(如t檢定或是變異數分析),最好還是事先了解一些更為基礎的概念,像是平均數、變異量和假設檢定等,這樣才能更為容易上手。