大數據時代來臨,這些躺在雲端與其他地方的儲存媒體,耗費大量資源收集而來的資料,正在等待我們去處理、應用;而統計學就是一門讓數字說話的科學,也是一門藝術,知識工作者不得不盡快學習。
即使是一般善良市民,每天一早翻開報紙或打開收音機時,看到或聽到的各類政治、社會、財經、運動、健康、氣象和股票的新聞,除了重要事件的敘述與追蹤,也會參雜許多統計表格、圖形與數字,可見統計跟我們的工作與生活,幾乎是離不開的。
面對社會與生活上的各種資訊與議題,若沒有清晰的統計觀念,很容易陷入五里迷霧、摸不著頭緒。本書即是幫助你劈開迷障的利器。
本書特色
※一單元一概念,迅速掌握統計基本概念。
※即學即用,面對新聞報導與政府統計資料不再理盲。
※圖文並茂‧容易理解‧快速吸收
作者簡介:
許玟斌
一位關心全民生計的統計學博士。不僅擁有一身解讀數字的好功夫,更關心一般社會大眾的統計素養;曾出版《巷子口統計學》一書,拯救了無數國民的統計概念。離開教職後,仍持續潛心研究,著書立說。閒暇時喜歡閱讀、思考、游泳與打高爾夫球。
學歷
美國懷俄明大學統計博士
經歷
東海大學資訊工程系副教授
東海大學資工系主任
東海大學電子計算機中心主任
章節試閱
Unit1-3
那些人該懂些統計?
每天一早翻開報紙或打開收音機,就會看到或聽到各類訊息,包括政治、社會、財經、運動、健康、氣象、股票的新聞,除了重要事件的敘述與追蹤,也會參雜許多統計表格、圖形與彙整數字。
購買新車時人們大都以售價、大小、顏色與品牌來度量一部車的價值。有一個試驗將100位男士隨機平均分成兩組A與B,根據些微差異的兩輛新車相片請A組的50位先生評估哪一部車子較為值得購買,而給B組的兩張相片僅其中一張是一位美女與車子的合照。結果B組50人中的37人認為那輛美女加持的車子較為值得,而同一輛車子在沒有美女合照相片的A組中僅有13人選擇它。同理根據多次這類試驗,廣告行銷人士可以利用統計技術,了解市場走向、需求數量、包裝方式與獲利狀態等輔助決策的有用資訊訂定未來策略。
每當大約距離台灣幾千公里,遠在東方太平洋海面出現熱帶性低氣壓時,大家就開始關切是否形成颱風或會不會放颱風假。新聞媒體每天採訪氣象局人員並參考相關國家的預報,組合所謂最新動態,近乎瘋狂的程度真是不可思議。氣象局的專家們除了忙著觀測,也必須應用統計理論與技術進行耗時的模擬,發布包含無可避免的誤差的預測,因此大約每隔30分鐘,預報員或電視主播說明颱風動向的內容不外乎,目前是否形成颱風或未來行進路徑變數很多,不排除有發生大雨的機率,也不排除有襲台的機率。如此不確定性的訊息似乎沒有任何價值,又機率是度量事件出現的機會或可能性的一個0與1之間的實數,可以增減但不該使用於有或沒有的敘述。
人類怎麼知道某種病症應該服用哪些食材或藥品呢,在以前只能透過親嘗百草的經驗,今天醫學科技分析病因或缺乏元素以決定對應成分的比例與劑量。抽菸導致肺癌雖然沒有直接證據,雖然世界各地幾乎出現相同的數據,顯示肺癌病患中抽菸者人數大約是非抽菸者的9倍1,但是沒有辦法透過人體實驗斷定形成因果關係的結論。
其他如社會工作者關心吸毒者勒戒期滿再犯與教育程度的關聯,選舉之前研究支持度與選民意向的民意調查,各類保險方案與保費的訂立,製造業確保產品品質必要的管制措施,保持健康狀態的運動種類、方式、時程,公益彩券的合理獎項與金額,交通訊號紅黃綠燈的變化規則,蔬菜水果品種選擇、栽種方式、行銷策略,數也數不清的學者、專業人士、分析師與管理者的主要或部分工作幾乎都離不開統計。
Unit8-1
解讀農藥殘留新聞報導
只要鍵入蔬果農藥殘留,搜尋引擎就會列出不計其數的項目,請看其中三則新聞報導
1.台北市衛生局2016/05/23公布,蔬果零售業者、超市、賣場、批發市場及學校午餐供應商等處,4月份抽驗60件蔬果產品,結果2件不符合規定,不合格率3.3%。
2.台中市2015/12/18公布,超市、賣場、肉品加工廠、農會蔬果產銷班11月隨機抽驗蔬果肉片及文蛤等24件食材,其中14件蔬果、3件農藥殘留超標。
3.食藥署北區管理中心進口蔬果農藥殘留公布邊境查驗統計,2015年報驗29,000多批,抽驗比率3.37%,不合格率6.75%,共234批。
台北市與台中市公布的數據來源包括許多處所,雖然說明檢驗數量、不合格件數,但是彙整不同處所或不同產品的數據,容易造成資訊混淆。由於具破壞性與數量龐大,蔬果農藥殘留普查當然不可行,然而在各個蔬果產地、匯集處所或盤商,針對個別作物進行機率方式抽樣調查應該可行。食品藥物署,邊境查驗統計的這則新聞數據有些奇怪,如果抽樣比率的數字正確,總共檢驗件數大約等於1,000批,那麼不合格率6.75%,共234批,這種奇怪的數字組合,是媒體誤植?
既然是新聞,閱讀對象當然是一般讀者,這類政府公布的數據除了提供主管單位要求不合格產品下架或業者送辦的訊息外,民眾可以獲得甚麼資訊以輔助日常生活的決策?也許不合格產品不會流入市場,但是沒有查驗的產品呢?又台北市2016年4月抽驗調查結果不合格率3.3%,這類綜合、多項、不同類別物件的彙整數據也沒有太多用處,更有可能冤枉某些處所或作物的聲譽。
農藥殘留是一個複雜且開放性的問題,醫藥與農產專家學者不斷研究不同作物類別、不同時期、不同地區適用那些農藥,多少劑量與殘留容許量。統計方法當然成為這類研究進行試驗設計與彙整結論的重要工具,有興趣的讀者們應該不難從眾多文獻得到相關資訊。
從消費者角度,農藥殘留檢驗報告應該指名哪一處所、哪一作物、哪一農藥超標,還有不合格率,以利計算食用蔬果農藥殘留超標的風險。
某處所某作物某種農藥超標的不合格率,必須根據抽樣方式與抽樣數量,決定抽驗數量則必須建立在可容許的顯著水準,唯有如此才能提供民眾購買蔬果有意義的資訊。
決定抽驗數量
讓p=不合格率,1-p = 合格率,物件檢驗結果只有合格或不合格出現,是一個柏氏變數,因此檢驗n物件,不及格或農藥殘留超標件數是一個二項變數。所以不合格率p等於母體比率參數,當顯著水準等於α,信賴區間半矩<=B,樣本長度n >= zα/22p(1-p)/ B2。
假設邊境農藥殘留檢驗超標比率等於4.5%,讓顯著水準等於0.05,z.025 = 1.96,信賴區間半矩B = 0.015,所以95%信賴程度超標比率介於(0.03, 0.06),最小檢驗數量
n >= (1.96)2 (0.045)(0.955)/(0.015)2 >= 734,
假設超標比率等於3%,信賴區間半矩B = 0.015,最小檢驗數量n >= 3.8416 (0.03)(0.97)/(0.01)2 >= 1118
農藥殘留超標的風險
隨機選購n物件,沒有包括任何超標物件的機率= (1-p)n,
剛好1超標物件的機率= n p (1-p)n-1
剛好2超標物件的機率= nC2 p2 (1-p)n-2
讓n>=k,剛好k超標物件的機率= nCk pk (1-p)n-k
至少包含1超標物件的機率 = 1 - (1-p)n,
至少包含k+1超標物件的機率 =
1 - (1-p)n - n p (1-p)n-1 -…- nCk pk (1-p)n-k
假設某批進口水果邊境查驗不合格率等於4.5%,沒有達到退貨標準,除了檢驗不合格銷毀外,其餘流入市場。如果總共購買這批水果4次,沒有包括任何超標物件的機率
P(0) = 0.9554 = 0.83,剛好1超標物件的機率
P(1)= 4 * 0.045*0.9553 = 0.16
如此,至少包含1超標物件的機率 = 1 – 0.83 = 0.17
至少包含1超標物件的機率 = 1 – 0.83 – 0.16 = 0.01
Unit1-3
那些人該懂些統計?
每天一早翻開報紙或打開收音機,就會看到或聽到各類訊息,包括政治、社會、財經、運動、健康、氣象、股票的新聞,除了重要事件的敘述與追蹤,也會參雜許多統計表格、圖形與彙整數字。
購買新車時人們大都以售價、大小、顏色與品牌來度量一部車的價值。有一個試驗將100位男士隨機平均分成兩組A與B,根據些微差異的兩輛新車相片請A組的50位先生評估哪一部車子較為值得購買,而給B組的兩張相片僅其中一張是一位美女與車子的合照。結果B組50人中的37人認為那輛美女加持的車子較為值得,而同一輛車子在沒有美女合...
作者序
統計數字可靠嗎?
每一個人為自己或為你/妳管理或負責的人群,時時不斷地製作各項決策,而主要決策流程是訂立一組決策標準,分析可行方案,與選擇最佳效益方案。決策過程當中,有些人唯有依靠神助、主觀或直覺,不過為了有效說服自己與他人,大都數人們寧願相信隱藏在資料集合裡的資訊或統計數字。然而面對一個接一個的選擇,我們依賴的統計數字可靠嗎?
2016年7月6日20點30分,氣象局發布陸上颱風警報,編號第1號(國際命名:NEPARTAK,中文譯名:尼伯特)。隔天7月7日13時15分颱風警報單,發布海上陸上警報,內容包括目前中心位置北緯 21.4 度,東經 123.6 度,即在花蓮的東南方約 350 公里之海面上。7級風暴風半徑 200 公里,10級風暴風半徑 80 公里。以每小時18轉14公里速度,向西北西進行。近中心最大風速每秒55公尺,相當於16級風等數據。2016年7月7日,氣象局台中市觀測溫度攝氏32.8度,雨量0。某天氣預報網站更有過去30年這一天下雨的機率11/30,降雨紀錄59.9毫米,平均6.8毫米,平均高溫、平均低溫、最高、最低分別為攝氏32、26、34、23度。
風雨溫度等描述天氣狀況的變數,在使用工具觀察或度量之後,自然現象的一個觀察值就是事件的事實,或稱為隨機變數的一個例子。有些數值並不是直接度量所得,而是利用敘述統計方法彙整例如加權、平均、最高、最低或經驗機率等間接度量結果。如果度量工具與方式沒有瑕疵的話,這些統計數字當然可靠,因為它們是描述事件的事實或事實的函數。所以我們在媒體看到聽到的外匯、黃金或石油價格,景氣指標與股票市場指數等等,無論計算公式多麼複雜,都是可靠的統計數字。
很可惜,描述事件事實的統計數字,對於決策的幫助並不顯著,因為這些數字只是隨機現象的特定或部分觀察值集合,我們要的不只是過去事件的紀錄或特徵,我們要的是能夠輔助因應未來事件的預測或估計的資訊。例如一般人並不在乎颱風在哪裡生成、名字編號、或之前的行進路徑與性質,我們要的是預估登陸時間、地點、風速、方向與雨量等資訊。
大約距離3000公里遠人們就開始關切將要或可能誕生的颱風,相關地區的學者專家們無不應用各式模式在不同時段預測未來的發展,氣象局的颱風警報單當然也有包括未來某時間點颱風動向的預測。預估颱風動態並不是一個簡單的問題,也許是變數的取捨或人算不如天算,因此各氣象機構的預測常常大為不同。哪一個預報比較可靠呢?
大多數天氣預測系統,是一種天氣變化的模式模擬研究,從收集與彙整模式輸入資料或參數,模擬過程與輸出數據分析,無不與統計方法息息相關。從統計的角度來說,一次模擬結果也只不過是隨機現象的一個例子,如果根據數次甚至只是一次預測的結果就評斷某機構或某模式的表現,大有可能形成瞎子摸象的結論。
預測隨機現象出現某一事件,或估計出現某事件的機率,基本上是在沒有規則的觀察值數字堆中找尋規則,是一種植基於機率理論無中生有的技術。從機率的定義來說,某事件發生的機率等於無限多次的觀察出現這事件的相對次數。然而發生機率很高的事件,沒有發生就是沒有發生,相反的發生機率微小的事件,發生就是發生了,我們一點辦法也沒有。
自然現象,本來就是無緣無由就發生了,統計理論嘗試依據一定數量的觀察值尋求代表一個隨機現象的一個理論機率函數,然後某事件發生的機率才得以計算。如果觀察值數量不足以辨識一個潛在的機率函數,敘述無頭無尾的隨機現象的方式是使用相對次數或經驗機率表示某一個事件出現的可能性或機會。
我們可以不知道氣象組織如何發展模擬模式、進行模擬、輸出分析與解讀等過程,但是我們可以依據一個氣象組織的過往紀錄,計算正確預測某事件例如風向西北、平均風速15級或累積雨量介於(300-500)毫米之間的相對次數,進行評估這個組織預測颱風動態的統計數字的可靠性。
度量與收集隨機現象的觀察值,彙整與呈現資料集合特徵的圖表數字,辨識代表觀察值集合的理論機率函數,估計未知參數的信賴區間與檢定參數是否落入某一範圍,介紹與舉例說明這些形成可靠統計數字的過程,構成本書的內容。
感謝
感謝發行者五南圖書公司,主編侯家嵐小姐,責任編輯劉祐融,文字校對鐘秀雲、許宸瑞,美工設計張淑貞,封面設計盧盈良,以及前副總編輯張毓芬小姐,衷心感激各位在發行本書各個階段的協助、支持與辛勞。
統計數字可靠嗎?
每一個人為自己或為你/妳管理或負責的人群,時時不斷地製作各項決策,而主要決策流程是訂立一組決策標準,分析可行方案,與選擇最佳效益方案。決策過程當中,有些人唯有依靠神助、主觀或直覺,不過為了有效說服自己與他人,大都數人們寧願相信隱藏在資料集合裡的資訊或統計數字。然而面對一個接一個的選擇,我們依賴的統計數字可靠嗎?
2016年7月6日20點30分,氣象局發布陸上颱風警報,編號第1號(國際命名:NEPARTAK,中文譯名:尼伯特)。隔天7月7日13時15分颱風警報單,發布海上陸上警報,內容包括目前中心位置北緯 21....
目錄
第一章 綜觀統計方法
Unit 1-1 無所不在的統計名詞
Unit 1-2 統計如何讓數字說話?
Unit 1-3 那些人該懂些統計?
Unit 1-4 明確定義問題
Unit 1-5 常用統計分析方法
Unit 1-6 可用資料集合
Unit 1-7 資料彙整與呈現
Unit 1-8 催生統計推論的隨機現象
Unit 1-9 以隨機樣本概全的邏輯
Unit 1-10 統計分析演算法
Unit 1-11 為甚麼統計偶爾被人詬病
第二章 產生統計結論的原料
Unit 2-1 可用資料集合的性質
Unit 2-2 資料來自何處?
Unit 2-3 直接觀察取樣設計
Unit 2-4 簡單隨機抽樣
Unit 2-5 分層抽樣
Unit 2-6 群聚抽樣
Unit 2-7 系統抽樣
Unit 2-8 非機率抽樣
Unit 2-9 試驗設計
Unit 2-10 物件屬性度量標準
第三章 彙整與呈現資料集合
Unit 3-1 彙整與呈現資料集合的特徵
Unit 3-2 類別資料的表格
Unit 3-3 類別資料的圖形
Unit 3-4 數值資料的表格
Unit 3-5 數值資料的圖形
Unit 3-6 表示時間序列的趨勢
Unit 3-7 數值資料的趨中位置
Unit 3-8 數值資料的分布位置
Unit 3-9 數值資料的分散程度與狀態
Unit 3-10 莖葉圖、五數彙整與盒子圖
Unit 3-11 統計指數
第四章 細說隨機變數
Unit 4-1 模式化隨機現象的隨機試驗
Unit 4-2 已知樣本空間,計算事件發生的機率
Unit 4-3 數值化出象的轉換規則
Unit 4-4 隨機變數的機率函數
Unit 4-5 常用理論機率函數
Unit 4-6 常態隨機變數
Unit 4-7 柏氏隨機變數
Unit 4-8 二項隨機變數
Unit 4-9 均值與均等隨機變數
Unit 4-10 指數隨機變數
Unit 4-11 波氏隨機變數
第五章 辨識理論母布
Unit 5-1 辨識理論分布的步驟
Unit 5-2 假設檢定的步驟
Unit 5-3 檢定硬幣出象序列
Unit 5-4 樣本獨立性檢定
Unit 5-5 篩選理論分布步驟
Unit 5-6 參數估計式
Unit 5-7 卡方檢定的理論背景
Unit 5-8 常態分布適合度檢定
Unit 5-9 均等分布適合度檢定
Unit 5-10 確認理論分布之後
Unit 5-11 計算隨機事件出現的機率
Unit 5-12 常見樣本分布
第六章 母體參數區間估計
Unit 6-1 母體參數信賴區間
Unit 6-2 常態參數區間估計
Unit 6-3 常態變異數區間估計
Unit 6-4 變異數已知,常態平均數區間估計
Unit 6-5 變異數未知,常態平均數區間估計
Unit 6-6 大樣本非常態母體平均數區間估計
Unit 6-7 母體比率區間估計
Unit 6-8 指數參數區間估計
Unit 6-9 波氏參數區間估計
Unit 6-10 小樣本母體參數
Unit 6-11 兩常態母體平均數差異
第七章 母體參數假設檢定
Unit 7-1 參數假設檢定的緣由
Unit 7-2 變異數已知,常態平均數檢定
Unit 7-3 變異數未知,常態平均數檢定
Unit 7-4 母體比率假設檢定
Unit 7-5 指數參數檢設檢定
Unit 7-6 波氏參數假設檢定
Unit 7-7 常態變異數假設檢定
Unit 7-8 小樣本指數母體參數假設檢定
Unit 7-9 小樣本母體比率假設檢定
Unit 7-10 小樣本波氏參數假設檢定
Unit 7-11 兩常態母體參數假設檢定
第八章 漫遊政府統計資訊網
Unit 8-1 解讀農藥殘留新聞報導
Unit 8-2 檢視內政部天然災害網頁
Unit 8-3 檢視檢肅毒品統計表
Unit 8-4 檢視台北市平均每戶每月水電支出
Unit 8-5 檢視高雄市道路交通事故檔案
第九章 從一張亂數表說統計
Unit 9-1 亂數產生器
Unit 9-2 檢視一張隨機亂數表的步驟
Unit 9-3 彙整亂數表的敘述統計
Unit 9-4 植基於系統抽樣的推論
Unit 9-5 植基於群聚抽樣的推論
Unit 9-6 亂數表個案研究的結論
第一章 綜觀統計方法
Unit 1-1 無所不在的統計名詞
Unit 1-2 統計如何讓數字說話?
Unit 1-3 那些人該懂些統計?
Unit 1-4 明確定義問題
Unit 1-5 常用統計分析方法
Unit 1-6 可用資料集合
Unit 1-7 資料彙整與呈現
Unit 1-8 催生統計推論的隨機現象
Unit 1-9 以隨機樣本概全的邏輯
Unit 1-10 統計分析演算法
Unit 1-11 為甚麼統計偶爾被人詬病
第二章 產生統計結論的原料
Unit 2-1 可用資料集合的性質
Unit 2-2 資料來自何處?
Unit 2-3 直接觀察取樣設計
Unit 2-4 簡單隨機抽樣
Unit 2-5 分層抽樣...