【用統計學關鍵觀念,一口氣學會敘述統計和推論統計】
STEP 1 掌握統計學整體輪廓
建立最基礎的敘述統計知識,透過資料化約手法,解讀出資料本身具有的特徵。並以常態母群體為軸,大略掌握「檢定」與「區間估計」,爲推論統計打好基礎。
‧學習內容:次數分配表、直方圖等製圖法。平均數、標準差等統計量。常態分配、檢定和區間估計的約略概念。
‧實際應用:掌握出生率和死亡率等社會或經濟現況、氣象及海洋等環境評估、考試成績落點評判、分析金融商品的性質與優劣(金融商品風險指標)
STEP 2 針對推論統計進階學習
深度認識推論統計中最重要的檢定與區間估計,對「大到無法掌握整體」的對象(母群體)進行推測。
‧學習內容:區間估計的完整概念、卡方分配和t分配、以小樣本有效完成推估。
‧實際應用:依出口民調預測選舉得票數、地球溫室效應的預測、股價預估、金融和保險商品的定價策略
現代人的生活當中處處可見統計的應用。所謂的「統計學」簡要來說,就是將看似不規則、有如亂數的數據、資料,利用應用數學的手法經過統整與處理後,進行解析或進一步推論的一門分析科學,大抵可分為兩部分:從蒐集的資料中解讀其特徵的「敘述統計」,以及針對「大到無法掌握全體的對象」和「尚未來臨的未來將發生的事」進行推測的「推論統計」。
其應用範圍包括了保險費用的精算、社會人口情形(出生率、死亡率、老化現象、少子問題)、經濟成長與景氣狀況、溫度及降雨率等天氣預報、彩卷中獎機率、餐廳的服務意見卡……等,無論在社會、經濟、醫藥等與生活息息相關的層面,或者生物、物理、化學等學術領域上,統計均應用廣泛。在資訊量爆炸、處處充斥著數據資料的現代,如何運用這些資料從中擷取有用資訊、產生新價值,甚至用以推估未知的事物,已經成為關鍵競爭力,學好統計學正是躋身優越行列的前導燈!
本書特色──不用再怕艱澀的理論和複雜的數學運算成為阻礙!
‧建立札實基礎:不求一次網羅所有事情,穩健踏實地建立基本觀念
‧深淺觀念清晰:先解釋清楚關鍵概念,由淺入深循序進入統計核心
‧屏除複雜計算:重在解明邏輯、了解統計本質,僅需國中數學程度
‧最重視標準差:用大篇幅講明何謂標準差,幫助掌握統計關鍵訣竅
‧運用獨創解釋:以「95%預測命中區間」解決推論統計的跳躍環節
作者簡介:
小島寬之
帝京大學經濟學系教授。經濟學博士。數學隨筆作家。專攻數理經濟學。
一九五八年出生於東京,畢業於東京大學理學院數學系,同大學經濟學研究所博士課程修畢。
著有《機率的思考方式》(NHK Books系列)、《方便運用!機率的思考》(筑摩新書系列)、《世界第一簡單微積分》(歐姆社出版)、《從零開始學習微積分》(講談社出版)、以及《專為文科設計的數學教室》(講談社現代新書系列)等多部作品。
譯者簡介:
畢業於元智大學企管系,平時熱愛閱讀,鑽研學問。雖然在求學期間未曾陷入「統計就是統統忘記」的魔咒,但要是當時手邊有本淺顯易懂的入門書,想必 就能學得更興味盎然。現為日翻中譯者。
電子信箱:yaruo@xuite.net
章節試閱
第0講 本書的立基點――高效率且按部就班地理解統計學
0-1 本書分成兩個部分
本書為統計學入門書,是以最精簡的計算工具、最淺顯的字句所寫成,筆者甚至可以大膽地說:「要是再刪減下去,就不算是統計學了。」
本書由兩個部分所組成。第一部將從基本中的基本開始學起,務求在最短時間內學會統計學最重要的兩個項目「檢定」和「區間估計」。
只要讀了第一部,就能夠在短時間之內了解統計學的目的為何、以及依據什麼樣的觀念在實際應用。
如今正為「不管到哪裡都學不會統計」抱頭苦惱的人、或者無論念了多少入門書總是遇上相同瓶頸的人,請一定要翻翻這本書的第一部。
第一部會提到那些讀者想要理解卻難以明白的概念,平日忙碌的讀者閱讀到這樣的地方想必能夠恍然大悟:「原來統計學是這樣的啊」,而有值回票價的感覺。
在第二部裡,則會進一步探討第一部的內容,解說和母群體相關的推論統計方法。第二部的目標是要用「t分配」最有效率地完成小樣本的檢定和區間估計,儘管只要明白了這個部分就能掌握到統計學的重點,然而許多學子來到這裡之前便已受盡挫折。
之所以會如此,最常見的原因在於資料處理和機率的部分,這兩者幾乎都以同樣的計算方式來定義,但其概念該怎麼個別探討才好,其間的區別極為不易掌握。正因為不明白這一點,才讓學習者猶如墜入五里霧中。
本書的第二部包含資料處理和機率的不同之處,在編纂時快刀斬去易對門外漢造成混淆的概念和枝節(但學術上務求精確時仍有其必要性),在內容結構上讓讀者能夠直接領會推論統計的本質。換句話說,第二部某種意義上是要朝著目標急速奔馳、全力衝刺。
0-2 統計學是什麼――敘述統計和推論統計
大抵而言,統計學是由兩個部分所組成,其一為「敘述統計」,另外一項則為「推論統計」。
所謂的敘述統計,總歸來說就是一種從蒐集的資料中解讀其特徵的技術,起源可說由來已久。比如說,要是將人口普查視為資料的一種,那麼《舊約聖經》中摩西所處的時代和羅馬帝國時期就都用到了統計的概念。在中國漢朝及日本大化革新之際,也曾為了徵稅而舉辦人口及土地普查。
不過敘述統計最為可信的起源,得追溯到十七世紀的時候。
德國學者康令的《國情論》、英國軍人葛蘭特的《針對死亡表的自然與政治觀察》、佩堤的《政治算術》,以及哈雷的《死亡率之估計》,以上都堪稱敘述統計之先驅。從這些人的研究當中,可以清楚地看到出生率和死亡率資料的特徵為何,這便是敘述統計的思考面向。
在這之後,發展出了直接擷取資料特徵的方法,包括次數分配表和直方圖等圖表法,以及平均數和標準差等各式各樣的統計量。如今,在掌握社會經濟現況與調查氣象和海洋等自然環境上,都會用到這些方法。
相對來說,推論統計則是結合了統計學手法和機率論,以針對「大到無法掌握全體的對象」及「尚未來臨的未來將發生的事」來進行推測。這套方法是在二十世紀時確立,其意義在於「由部分推論整體」,稱之為前所未有的嶄新科學亦不為過。
比較貼近生活的例子是選舉快報,這可以說是典型的推論統計成果,在開票率尚在百分點階段時就能發表「確定當選」的報導,便是推論統計的功勞。除此之外,在地球溫室效應的預測、股價預估、以及金融商品和保險商品的定價策略上,推論統計亦是不可或缺的工具。
0-3 本書最為重視標準差(S.D.)
本書第一部的前半段雖然在講解敘述統計,但內容多集中火力在針對「標準差」的意義進行徹底的說明。所謂的標準差是統計量的一種,用來表示「資料以平均數為基準所分布的範圍有多廣、又是如何分布」。筆者縱然心知統計學最重要的工具就是標準差,不過很多統計學教科書卻只說明其定義和計算法就一筆帶過,
這麼一來學習者便無法體會標準差的意義與重要性。
然而,若沒有充分領悟標準差的真意,那麼當碰到從標準差發展出來的常態分配、卡方分配和t 分配等推論統計法時,就會完全摸不清那究竟是拿來做什麼的。筆者認為這就是使許多人對統計學信心受挫的緣由。
因此在本書當中會用各種方式來講解標準差,舉例之豐富會讓人吃驚道:「這也是標準差嗎?」。沒有一本教科書會以這麼多頁數來談論標準差,這一點筆者很有自信。簡單來說,本書不只要明示標準差的定義,還會利用公車誤點、衝浪者的譬喻、以及選購股票的指標等案例,讓讀者得以具體理解標準差的意涵,並
且也能連同了解其所附帶的「功效」,亦即成為判斷金融商品是否優異的重要指標──波動率和夏普指數。生活在二十一世紀高度的金融社會,這些知識是非常有用的。
0-4 本書幾乎不談「機率」
正如第13 頁講到「推論統計」時所述,要以統計學來進行推論,必須利用敘述統計法加上機率論的概念。在敘述統計中所學到的平均數,到了隨機變數的領域中會另外以「期望值」的名義再次登場,而資料的標準差在隨機變數裡,則仍舊稱為標準差。明明計算的方式完全相同,平均數和期望值卻被當成不一樣的東西,把學習者搞得一頭霧水。而事實上,筆者一開始念統計學的時候也是如此。
於是,由此所產生的混淆便隨著持續學習推論統計而逐漸擴大,到最後變得完全分不清什麼是什麼。
之所以會搞混,是由於統計和機率之間有著微妙的不同。所謂的統計,是要從觀測到的資料集合體中「敘述過去發生的事情」。而另一方面,所謂的機率則是「描述未來發生的事情」。如此一來,以「現在」為基準來看的話,兩者的意義就完全不同,不過要是往返於時間軸上,這份差異就會消失。
為什麼呢?因為「未來會發生的事情」要是過了那一刻,就會變成「已經發生過的資料」,而若追溯至「過去發生的事情」之前的時間點,其就成了「未來發生的事情」。這麼說來,對於不知是相同還是相異、關係微妙的統計和機率而言,由於他們都適用於平均數和標準差這種相同的計算方法,所以會感到錯亂也
不是不可能的事。而且,在推論統計法上(這一點將在本書第九講中詳細探討)進行推測時,會探究「是否應將所獲得的過往資料視為未來會發生的事」,因此,愈小心翼翼的人就愈容易陷入「這到底是什麼?完全搞不懂!」這樣茫然的心境。
所以,本書為了避免產生這樣的混亂,而大膽嘗試了「能不用機率就不用」的解說方式。
只要實際將本書一頁頁地翻過一遍,就能立刻明白書上的內容,其他統計學專著中一定會出現的組合公式nCk、以及諸如P (X=x) 之類的隨機變數符號,在本書裡統統都不會出現。本書把「在資料集合裡,資料x占所有資料的p個百分比」和「從資料集合中觀測一個資料時,其為x的機率為p個百分比」這兩種狀況相提並論,進行講解。儘管這會忽視推論統計學家費心累積的理論框架,多少令筆者感到心痛,但為了避免令眾多初學者感到混亂,這也是必要的權宜之計,且應不至於讓一般的讀者產生太大的質疑。
0-5 採用「95%預測命中區間」來說明
然而,「過去和未來的差別」才正是關注的焦點,這種想法就成為檢定和區間估計的基礎。
在這裡,筆者將提出個人的獨特見解,這在其他書上完全不會提到,用筆者所創的新詞來說的話就稱為「95%預測命中區間」。這個詞彙是筆者對推論統計所獨創的解釋,從這個意義來看,也許會受到統計學專家的斥責,但筆者身為運用機率論的決策理論專家,在這裡要嚴正地主張這就統計哲學的意義上是一大特點。
正是這種獨創性解釋,才能向大多數初學者傳達推論統計構想的精髓,這是筆者所抱持的信念。本書採取的這種講解手法或許讓專家覺得不太正統,卻也是最吸引人之處。
0-6 本書也幾乎不用數學符號和公式
由於本書大膽刪掉機率的部分,所以就沒有必要用到高中程度以上的數學。其他的統計學教科書無論再怎麼號稱「入門」、再怎麼強調「簡明」,一旦觸及到機率的部分就無法將高中程度以上的數學排除在外,一定會用上組合符號、Sigma 符號和隨機變數的期望值,甚至還會出現微積分的符號與計算。
不過在這本書裡,既不使用組合符號、Sigma符號和隨機變數的期望值,也將微積分統統去掉。使用到的數學僅止於國中程度,難度大約只有一次不等式和開根號計算。
當然不可否認的是,像這樣將數學運算的部分以簡易繁,有礙於對統計學的全盤了解。然而筆者之所以選擇這種方法,是因為筆者認為「統計學的觀念本質就算不使用數學符號和公式,也可以適當地傳達出去」。或者可以說,對於因不擅長數學而無法理解統計學的初學者來說,如果能夠先理解到統計學的「純粹本質」
為何,之後也可以從其他書上再去認識充滿數學的全套統計學。
除此之外,本書中亦盡可能用文字來表示統計學公式。比方說來,如果因為不習慣數學符號而避開數理科目,這就跟不會看樂譜所以不聽音樂一樣地可惜。想必每個人都會同意「音樂的本質和音符是兩回事」,同樣地,「統計學的本質和數學符號也是兩回事」,這就是筆者想要呼籲的觀念。
0-7 靠簡單的填充練習題即可自學
要熟習統計學,必不可欠缺的就是實際動手計算練習題,因此本書在每一講最後都附上試題,用來複習該章節的內容,程度非常簡單,而且題型平易近人,只要依照順序填空,就可以自然而然地解出答案,請一定要全部做完。
希望所有手上拿著這本書的讀者在讀完之後,能夠順利跨越統計學的門檻。現在開始正式進入主題吧!
第0講 本書的立基點――高效率且按部就班地理解統計學0-1 本書分成兩個部分本書為統計學入門書,是以最精簡的計算工具、最淺顯的字句所寫成,筆者甚至可以大膽地說:「要是再刪減下去,就不算是統計學了。」本書由兩個部分所組成。第一部將從基本中的基本開始學起,務求在最短時間內學會統計學最重要的兩個項目「檢定」和「區間估計」。只要讀了第一部,就能夠在短時間之內了解統計學的目的為何、以及依據什麼樣的觀念在實際應用。如今正為「不管到哪裡都學不會統計」抱頭苦惱的人、或者無論念了多少入門書總是遇上相同瓶頸的...