第一章 資料從哪裡來
1.1 導讀
學習統計學的第一步,就是要認識「資料」(data),了解資料的基本型態及如何蒐集資料。而當我們在蒐集資料過程中,必須符合道德規範,以及使用正確地衡量工具,才能進行下一個步驟抽樣資料(第2 章)。本章節將介紹資料的不同型態、觀察性資料、實驗性資料、數據的展示、蒐集資料的道德規範及資料衡量工具的信度與效度。
1.2 資料的型態
我們要處理資料,首先必須知道資料「長」什麼樣子,表1.1就是一個例子。從裡面我們可以得到很多訊息,例如某病人的年齡幾歲?身高多高?體重多少?教育程度如何?性別是男性還是女性?在了解資料之前讓我們先介紹兩個名詞:觀察個案(或稱個體,individual)和變數(variable)。
所謂個體,是指資料描述的主要對象。以表1.1 為例,個體是指醫院的病人,換句話說,這筆資料主要描述的對象就是醫院的病人。
所謂變數,又稱變項,用來描述個體的某種特性,依照特性的分類標準,可以為不同數值(亦稱變量)或類別出現次數,參考表1.1。例如林XX的年齡是35歲,張XX的年齡是30歲,李XX的年齡是27歲,年齡是用來描述病人的某種特性,因此年齡就是一個變數,每位病人的年齡可能有不一樣的值。同理,性別也是一個變數,例如林XX的性別是男性,張XX的性別是女性,李XX的性別是女性,其他如身高、體重和教育程度也都是變數。
變數根據類型的不同可分為兩種,第一種是類別變數(categorical variable),也稱為質性變數(qualitative variable)。參考表1.1,性別和教育程度都屬於類別變數,例如性別分成男性和女性,教育程度分成國小、國中、高中、專科、大學和碩士,因此類別變數是把個體分類,分成幾個不同的特性。
第二種是量化變數(quantitative variable),也稱為數量變數。參考表1.1, 年齡、身高和體重都屬於數量變數,數量變數的值是有意義的數字,例如林XX的年齡是35歲、張XX的身高是166公分和李XX的體重是82公斤都是在描述變數代表的意義。
資料來源
蒐集資料的方法主要有觀察法和實驗法。參考表1.2,利用觀察法所得到的資料稱為觀察性資料,利用實驗法所得到的資料稱為實驗性資料。
所謂觀察性資料(observational data),是指順其自然,這個世界是什麼, 它就是什麼,換句話說,訪問時看到什麼聽到什麼,就把它記錄下來,例如民意調查,或是田野調查所得到的資料。
所謂實驗性資料(experimental data),是指操之在我,可以掌控或操縱自然世界的。例如新藥測試,在實驗室裡面,研究人員可以用各種人工的方法操縱一些因素(factor)而取得測試資料。
利用觀察法得到的資料是很常見的,而觀察性資料通常會有母體資料和樣本資料的區分。參考圖1.1,讓我們先大致了解一下母體(population)和樣本(sample)的差別。
所謂的母體,是指研究的全體對象;而所謂的樣本,則是從母體裡面抽取一部分,以便對母體做一些推論。我們用以下幾個例子來說明母體跟樣本的差別。
第一個例子是關於臺大學生騎腳踏車的調查,參考圖1.2,腳踏車對臺大學生而言是一個很方便的交通工具,如果想知道臺大學生騎腳踏車的比例,從臺大全體學生之中抽取一千人進行訪問,此時的母體就是臺灣大學全體學生,所抽取的一千人就是樣本。
第二個例子是臺北市民的運動習慣,參考圖1.3。運動可以舒緩壓力,增加抵抗力,促進身心健康,如果想知道臺北市民的運動習慣,從臺北市民之中抽出兩千人進行電話訪問,這裡臺北市全體人民就是母體,而樣本就是電話訪問的兩千人。
第三個例子是臺灣民眾的上網時間,參考圖1.4。近幾年來網路發達,許多民眾都從網路上取得資訊,如果想知道臺灣民眾每週花多少時間在網路上,研究人員從臺灣民眾抽出五千人進行訪問,所以臺灣全體民眾就是母體,抽出訪問的五千人就是樣本。
1.3 觀察性資料――順其自然
利用觀察法得到的資料稱為觀察性資料,參考圖1.5。通常我們看到觀察性資料時就會聯想到這個資料是從哪裡來的?它們有可能是來自於母體資料(如前例臺灣大學全體學生、臺北市全體人民、臺灣全體民眾等等),也有可能是樣本資料(如前例抽取一千名學生、電訪兩千名市民、訪問五千位民眾等等)。大家在一般媒體上面看到的資料,通常都會說明這個是抽樣資料或是母體資料。
調查(survey)是蒐集資料很常見的方法之一,所取得的資料也是屬於觀察性資料的一種,而我們根據調查的範圍可將「調查」區分為普查(census) 跟抽樣調查(sample survey)兩種, 參考圖1.6所示,我們來比較普查跟抽樣調查的差異。
所謂普查,參考圖1.6之上半圖,是將整個母體納入觀察,以全部母體作為調查對象,換句話說,就是百分之百的抽樣。利用普查所得到的資料則是母體資料,例如臺灣有多少人?去年有多少人參加大學指考?去年有多少人結婚,多少人離婚,生下多少個小孩子?這些都是普查,因為資料蒐集的對象是整個母體。
所謂抽樣調查,參考圖1.6之下半圖,是以抽樣的方式從母體之中抽取一部分個體作為樣本,針對抽取的樣本進行調查,然後就其調查結果推論母體的全部狀況。抽樣調查的一個典型例子是政府的家庭收支調查,政府根據樣本資料提供的訊息可以推估全臺灣平均每戶家庭所得收入是多少錢、每戶的消費支出是多少錢和每戶可支配所得是多少錢等等。
普查(政府部門)
普查的第一個例子是每十年一次的戶口普查,參考圖1.7。在臺灣,我們每一個人都有一個戶籍資料,政府可以利用這個資料對人民做普查或是抽樣調查, 但是世界上有許多國家並沒有戶籍資料,例如美國就完全沒有,美國人沒有身分證,所以很難精確掌握一些人口相關的訊息。美國政府每十年一次要計算全國到底有多少人口,稱之為人口普查。其實世界上一般國家通常都把這種性質的調查稱為「人口普查」,只有臺灣叫做「戶口普查」,因為這個工作所耗費的成本相差非常多,人口普查難度較高,要花很多資源,但是戶口普查相對來說比較容易,利用戶籍資料,等於是在做戶口校正一樣,所以工作量少很多。
普查的第二個例子是臺灣每五年一次的工商及服務業普查,參考圖1.8。這個普查將全臺灣所有的公司機關行號都納入調查,包括營運狀況、資源分布、資本運用、生產結構及其他相關產業經濟活動狀況等都在調查範圍之內。
普查的第三個例子是臺灣每五年一次的農林漁牧業普查,參考圖1.9。這是調查全臺灣所有經營農林漁牧業生產和休閒活動的業者,針對他們的經營資源分布、生產結構、勞動力特性、資本設備及經營狀況等情形進行調查。
對一個講究行政效率的國家來講,平常一定要蒐集和分析這些統計數字。政府和民間都需要知道全國的工商及服務業與農林漁牧業所有的狀況,以作為擬訂各種相關政策的依據。
抽樣調查(政府部門)
我們政府常稱的三大調查,第一個就是人力資源調查,用比較通俗的話來講就是失業率調查,參考圖1.10。失業率調查結果每個月都會發布,樣本數大約是兩萬戶,約有六萬位15歲以上的人口,這是非常重要的調查。政府必須知道各行各業目前有多少人就業、薪水是多少、上個月有多少新人加入職場、有多少人離開職場及有多少人失業等等。許多政府部門和民間企業在研擬政策的時候,這些都是很重要的參考指標。
第二個調查是物價調查,參考圖1.11。政府每十天調查一次全臺灣的物價, 調查單位會先定義很多標準,譬如設定424種商品,每旬調查,同一個物品在臺北、臺中、新竹及高雄,各賣多少錢,分別記錄下來,每個月再根據這些物價資訊編製成物價指數(請參考第7章),而這個物價指數是可以拿來做很多其他延伸的用途,例如許多人能藉以知道現在的薪水比起物價來講是相對上升還是下降。
第三個調查是家庭收支調查,這個調查結果常常可以在報章雜誌上看到。家庭收支調查全臺灣13,776個樣本戶,一年調查一次,可以經由調查結果推估臺灣平均每戶家庭所得是多少、每戶所得消費支出是多少和每戶可支配所得是多少等等。
抽樣調查(非政府部門)
私人部門最常見而且重要的抽樣調查是電視收視率調查。電視收視率調查可以看成是一種準貨幣,為什麼呢?因為它可以決定廣告價格,是一個計價標準, 基本上是根據有多少人在收看某一個節目,而決定應該收取多少廣告費用。電視收視率調查會影響到廠商、節目製作人、甚至政府,所以非得做好不可,例如某些電視臺的政論節目昨天收視率是多少?這些數字每天一出來就會讓許多人晚上睡不著覺。這個調查相當昂貴,臺灣的電視收視率主要是由AGB 尼爾森公司調查,這家公司利用「個人收視記錄器」(people meter)進行固定樣本調查,全臺灣大概有一千八百戶樣本戶。
學術界最常見到的抽樣調查,就是持續最久的社會變遷基本調查,是由中央研究院負責,從1984年開始舉辦,1990年之後每年都會進行調查,到現在已經有二十幾年了。這項大型的面訪調查,同樣的主題每五年一個循環,所以稱為社會變遷基本調查,每年大概有四千多個樣本。
另外一個例子是臺灣選舉與民主化研究的抽樣調查。從2001年開始,每年都在進行,這也是一項大型的面訪調查。根據臺灣選舉和民主化的各項研究議題的調查結果,我們可以從裡面看出臺灣民眾對藍、綠的支持度在過去十年的變化以及其他相關的影響因素。
此外,我們也經常從媒體見到各種滿意度調查,例如總統的施政滿意度調查,或是各縣市長的施政滿意度調查,這些數據經常使得政治人物十分緊張。
由於普查是研究全部母體,需要龐大的經費與眾多的工作人員,也比較耗費時間。與抽樣調查相較之下,普查既費時又花錢,以時間和金錢的角度而言,抽樣調查當然比普查來得划算。
1.4 實驗性資料――操之在我
實驗法是蒐集資料的另外一個方式。我們做實驗總是有目的性,利用實驗法所得到的資料稱為實驗性資料,參考圖1.12。農人想要糧食增產, 所以就對農作物施灑肥料,到底施肥可以增加多少糧食產量呢?又例如減肥藥能不能降低體重?最近我們在打流行性感冒疫苗,是不是會引起副作用?有什麼證據?這些都需要做實驗,然後根據實驗的結果作推論。
假設我們要做一個有關減肥藥的實驗,蒐集身體質量指數(body mass index, BMI)超過27的人,隨機把他們分成兩組,一組服用減肥藥,另一組服用安慰劑。所謂安慰劑(placebo)就是裡面沒有減肥藥的成分,但是讓參加實驗的人也有服藥的行為和感覺。所有參加此實驗的人在做實驗之前先測量一次體重,然後持續服用藥物(或安慰劑)一段時間後,再測量一次體重,看兩組的體重變化是不是有差別,藉此證實減肥藥的效果。
其實一般人的生活每天可能都在當白老鼠或是參與實驗。一個簡單的例子就是7-ELEVEN便利商店,其據點有好幾千家,想一想如果廠商願意將一個新的產品推出去上市,上市之前要先決定一些策略。例如要怎麼樣包裝?用橢圓型包裝、圓形包裝、罐裝包裝還是其他包裝;要弄成什麼顏色?粉紅色、紅色、黑色、白色還是銀色;定價要訂在哪裡?10元、20元、21元還是29元等等。假設有三個因素要決定,每一種因素有好幾個分類方法,像包裝分成四種形狀,顏色分成五種顏色,測試的價格可能分成五種價格,所有因素的分類就有很多種組合,每一種組合至少要有兩家便利商店來做實驗,消費者買了東西以後,電腦就會自動記錄,總部就會知道哪一種商品賣掉多少個。等實驗結束,廠商根據所有蒐集到的資料,發現銀白色包裝,罐裝一瓶,價格29元,是銷量最好的組合, 而這個組合就是新產品的最佳組合,這就是實驗性資料的威力!
1.5 數據的展示――數字會說話
在生活上我們經常可以看到一些數字,例如楊同學昨天考試考了58分,參考圖1.13,這什麼意思?一點意義都沒有!為什麼?因為沒有其他資訊,58分搞不好是全班最高分啊, 所以只給58分一個數據沒有任何意義。我們也許要先看一下其他相關的一些數據,例如全班平均幾分,最高、最低是多少,中位數是多少,然後再去看考了58分有什麼意義。
第二個例子是林同學就讀臺灣大學,每個月房租不算,花費6,500元,參考圖1.14。同理,如果沒有一些相對數據的話,我們不知道每個月花6,500 元到底是多還是少?如果我們調查臺大學生的花費,每月花費的中位數是5,500元,這表示臺大學生有一半的人每個月花5,500元以上,一半的學生每個月花費不到5,500元。若有中位數可供參考,則林同學每個月花費6,500元, 比一半的同學還多,至少表示他沒有省錢。
第三個例子是王太太剛生下一名女嬰重量是3,485公克,參考圖1.15。一般人看到這筆數據應該是毫無概念,但如果給一個參考數據,例如臺灣出生的女嬰體重的中位數是3,000公克,換句話說,我們知道一半的女嬰重量在3,000公克以上,一半的女嬰重量在3,000公克以下,所以生了一個3,485公克的女嬰應該算是很重的,這樣女嬰的體重意義就比較清楚了。以上這些例子說明我們必須要有一些參考數據再來研判,解讀數字才有意義,否則的話,單單一筆數據是毫無用處的。
兩個變數之間的關係
我們看到一些資料時,通常會想知道變數跟變數之間的關係,可是什麼叫做這個變數跟那個變數有關呢?前面我們提到觀察性資料變數之間只能推論相關程度, 只有實驗性資料才可以推論因果關係。也就是說,如果只是觀察到很多現象的話, 只能說什麼跟什麼有很高的相關,不能下結論說什麼導致什麼,因為因果關係的標準比較嚴格,需要有科學上的證明或是依據。
讓我們看看以下的幾個例子,第一個例子是某國總統候選人A獲勝和各地區廢票率的關係,參考圖1.16。一位研究員在研究某國的選舉資料後發現,候選人A得票率很高的地方,廢票率也非常高。看到這個現象可以下結論說廢票率揚升跟候選人A的得勝有關係嗎?甚至說廢票率揚升導致候選人A得勝嗎?這是兩個完全不一樣的科學邏輯。實際上如果仔細去做分析的話,候選人A得票率很高的地區,廢票率確實也很高,但是那個地區選民的年紀相對來講也是很高,也就是六十歲以上的人口比例很高; 其次那個地區選民不認識字的比例相對來講也比較高,所以有很多變數之間的關係都有非常高的相關,但是這筆資料無法證明,廢票率揚升導致候選人A得勝,如果想要得到這樣的結論,必須還要有更堅強的科學證據支持。
第二個例子是某校學生大學入學考試,英文成績跟數學成績的關係,參考圖1.17。大考中心有各式各樣的數據可以做研究,我們可以分析每個學校學生入學考試的成績,不同學校學生英文成績跟數學成績的相關可能都不一樣。像某所大學的學生,英文成績跟數學成績可能有很高程度的相關,但是另一所大學的學生,英文成績跟數學成績卻可能沒有什麼關係。
另外一個典型的例子是抽菸跟癌症的關係,參考圖1.18。很多醫學研究認為,抽菸跟癌症是有因果關係,但是一般來講,通常拿到抽菸和癌症的資料都是觀察性資料, 所以在科學上只能說,抽菸跟癌症有非常高的相關,但是要推論到抽菸導致癌症,後面需要有更堅強的科學驗證。那要怎麼樣做這個實驗呢?像是拿老鼠來做實驗,把老鼠分兩組,一組抽菸,另一組不抽菸,除了是否抽菸的因素外,兩組老鼠的身體條件,生長環境及飲食等都完全一樣,避免其他可能影響罹患癌症的因子,然後根據實驗結果,才能證實會抽菸是否可能導致癌症。
事實上,學術界對於這個議題已經有一些共識,即如果想推論兩個變數之間有因果關係的話,必須滿足三個要件:第一個要件是原因變數X在前,後果變數Y在後,換句話說,先發生原因變數,再出現後果變數,這樣才可以建立一個因果關係的先決條件;例如,如果要驗證「龍生龍,鳳生鳳」這句話,也就是父母親的社會經濟地位造就了兒女的社會經濟地位,一定先有父母親的社會經濟地位,才可能會有兒女的社會經濟地位,所以一定是一個在前一個在後,這是建立因果關係的第一個要件。第二個要件是兩個變數之間要有非常高的相關程度,這一點是當然要件。第三個要件是最難的地方,必須是這個後果變數只有跟這個原因變數有非常高的相關,但是跟其他變數沒有相關,換句話說,只有這個原因變數X對後果變數Y有非常高的相關。像剛剛提到過的廢票率上揚,它是一個變數X,某國總統候選人A當選在後,也可能有非常高的相關,但是與廢票率上揚有高相關的變數非常多,說不定投票當天氣溫驟降導致民眾出門投票意願下降,所以廢票率上揚並不是唯一的原因變數,必須這三個要件都成立,才有可能推展到因果關係。