資訊爆炸的社會,為了生存,必須要學會統計!
職場上要用的統計學,只用這本就足夠!
一直以來覺得統計學很難,人生注定與他不會產生交集的文科生,
到了職場上,主管要你做的數據表單,不就是統計學嗎?
既然逃離不了處處是數字的世界,那麼何不認真面對?
本書利用100個單元,教你生活中常用的統計學概念,只要具有高中的知識,就可以讀懂本書。
原先就不擅長數學的人不需要把書中的數學公式轉換為文字,而是直接把公式記進腦中。本書雖然會使用公式,但幾乎不會展開數學公式進行推導,因此就算不懂數理概念也不用擔心跟不上。雖然還是有許多重要概念必須用數學的語言來記述。若是看到這些名詞,就試圖用「所以它的意思是……」的想法來換成別的易懂的字彙,光是這部分的轉譯就會無暇顧及其他。因此,別將數學公式翻譯為文字,而是將公式的樣貌記進腦中,並暫時擱置於心底。這麼一來,這些概念就會在不知不覺中在腦海中生根。
希望每個讀過本書的讀者,都能重新喜歡上統計學!
作者簡介:
倉田博史
東京大學大學院總合文化研究科與東京大學教養學部教授。
1967年出生。畢業於京都大學經濟學部,於1996年修畢一橋大學大學院經濟學研究科的理論經濟學及統計學博士課程,經濟學博士。過去曾於山口大學經濟學部擔任助理教授,於2000年至東京大學大學院總合文化研究科與東京大學教養學部擔任助理教授。2012年起升等為教授。
著書有(共著)“Generalized Least Squares”(John, Wiley& Sons),『入門統計解析』(新世社)。
審核者簡介 俞振華
國立政治大學選舉研究中心副研究員暨政治學系副教授,美國哥倫比亞大學政治學博士。
譯者簡介:
李其融
輔仁大學日文系畢,日本同志社大學腦科學研究科博士班在學中。
跨領域之間的研究者必定是相隔遙遠星系,幸好我們還有統計學。
章節試閱
開啟統計學的大門
第1部的目標
本書的編排,基本上和大學的統計學課程是幾乎一樣的。首先我們會學習整理簡化數據的方法,並掌握平均數與變異數、標準差等基本的統計量(第2部)。接著,我們將使用數據的生成機構(即機率分布)的概念將母群體模型化(第3部)。而最具代表性的機率分布,如二項分布與常態分布也會在此處登場。最後,我們將學習從數據推測母群體資訊的方法,並觸及估計與檢定的思考方式與應用。大致學完這些知識後,我們將學習迴歸分析與時間序列分析等更具應用性的手法(第4部)。在第1部之中,請容我先介紹統計學的功用與學習統計學的好處。
第一章 開啟統計學的大門
01 分析數據的目的
在進行實驗或調查時,我們將測量或觀察的人與物等對象稱作母群體,而包含在母群體之中的要素則稱作個體。此外,以母群體中的所有個體做為對象所進行的調查稱作全數調查,如人口普查即是一代表例。由於實施全數調查的金錢、時間成本太高,通常我們會選擇採用從母群體中抽選出部分個體的調查方式,也就是所謂的抽樣調查。從抽樣調查中被選出的所有個體被稱為樣本,而樣本中的個體總數被稱為樣本大小或樣本規模。
比方說,內閣府 所進行的「國民生活民意調查」,就是從18歲以上的日本人之中隨機抽選1萬人,調查他們對於現在生活的滿意度與對未來生活的預測、如何看待工作的目標等等關於生活、家庭與對於社會的看法。這些調查關注的並非是被選為樣本的1萬人的答案本身,而是身為母群體的所有日本人整體的意識。樣本的作用則是提供資訊,讓我們能得知上述問題的答案。
數據分析是利用樣本的資訊,將母群體的未知性質導引至某項結論,而統計學這門學問則是這項方法論的基礎。從實際上的例子來看,在2016年的「國民生活民意調查」之中,「大體來看對於現在的生活的滿足程度為何?」這項問題的結果是:
滿足10.7% 有點滿足59.4% 有點不滿22.6% 不滿5.9%
我們能夠用這項結果去推測全體日本人對於生活滿意度的回答分布。而統計學正是提供它背後理論基礎的幕後功臣。
02 統計學的功用:量化概念
統計學在社會中有著多樣的功用。對身為社會人士的各位而言,最重要(或者是息息相關)的用處,應該就是(i)量化概念;(ii)預測;(iii)檢驗假設;(iv)分類這四項吧。只要遵循統計學的程序,便能夠客觀運用這些知識,與他人共享分析結果。以下將依序解說上述四項功用,為接下來的章節做準備。
首先要介紹的是(i)量化概念。我們在解讀數據時,如判讀國民生產毛額(GNP)、日經平均指數 或智能商數(IQ)等數值時,通常都會假設它們背後有著放諸四海皆準的概念,並將數據套用至那些概念之中吧。也就是說,「經濟活動的規模」、「股市中的買賣規模」與「知性能力」才是我們真正關心的對象,而國民生產毛額、日經平均指數或智能商數等數據則是以數值的形式來呈現它們。就像這樣,數據能將概念呈現為數值,也就是能發揮量化概念的功用。數據能為概念賦予數值,使其具備客觀性。無論是國民生產毛額或日經平均指數,它們在數值上的解釋都具有唯一性。
然而,雖然數值本身是客觀的,但數據與概念之間的關係未必只有唯一一種,而是會取決於分析者的視點與主觀意識。比方說,棒球選手的「打擊率(數據)」與「作為打者的實力(概念)」未必完全相對應,這是因為打擊率無法呈現實力的所有面向。再舉一例,「智能商數(數據)」與「知性能力」也無法稱作完全相對應。若是分析者著重於知性能力的其他面向,量化的數據便會不同,精密度也會有所改變。
開啟統計學的大門
第1部的目標
本書的編排,基本上和大學的統計學課程是幾乎一樣的。首先我們會學習整理簡化數據的方法,並掌握平均數與變異數、標準差等基本的統計量(第2部)。接著,我們將使用數據的生成機構(即機率分布)的概念將母群體模型化(第3部)。而最具代表性的機率分布,如二項分布與常態分布也會在此處登場。最後,我們將學習從數據推測母群體資訊的方法,並觸及估計與檢定的思考方式與應用。大致學完這些知識後,我們將學習迴歸分析與時間序列分析等更具應用性的手法(第4部)。在第1部之中,請容我先介紹統計學的功用與...
作者序
前言
我所就任的東京大學教養學部,每年上學期都會開設「基礎統計」這項統計學的入門課程,開放1、2年級的文、理組學生選修。儘管該科目並非必修,對升級不會造成影響,但仍有非常多的學生選修,每年大約有1500人,且大多數學生都是1年級。雖然這門課也能在下學期或2年級時選修,但大多數學生都會選擇在1年級上學期修習。由於教師人員不足以因應如此龐大的學生數,目前我們開設5堂相同課程班級,減少1個班級之中的聽課人數。
這麼看起來,統計學似乎是很受歡迎的學問(當然它也是具有自身的趣味),但比起學問本身的樂趣,學生的選課動機多是為後續專業課程進行準備,希望能更有效率地吸收自己的專攻領域知識,盡可能早一步掌握分析數據的技巧。這不僅是很合理的現象,也清楚顯示出統計學在社會中所處的位置。也就是說,統計學就是決策的基礎技術。想必拿起本書的讀者之中,應該也有很多人是想在自己專攻的學問或商務領域之中進行分析數據、運用過去資料做出某種判斷,因此才會需要用到這些技術基礎的統計學吧。本書就是能讓這些讀者在通勤與休息的空檔「秒進大學修課」,希望各位能修習由我開設的統計學課程。
本書的標題有著「大學4年」的字眼,而我們在本書介紹的統計學知識比較接近大學的入門課程。因此,基本上只要具有高中畢業的知識就能讀懂。第1~15章與第20章的第1、2節是通識課程的內容,而第16~19章與第20章的第3~5節則大約是專業統計學課程在第1年學習的知識。因此大家可以用自己喜歡的順序閱讀第16~19章。個人認為,比起單純翻閱,思考如何透過本書提升自身知識,並讓自己能在工作場合更客觀地解讀數值才是最重要的。
想必在讀者之中,會有許多初次接觸統計學或不擅長數學的人。請初次接觸統計學的人先將目標設為釐清第5章的「標準化」概念。只要搞懂這項概念,就會對數據的看法產生極大的改變。而為了瞭解這項概念,只要知道「平均數」、「變異數」與「標準差」這三項用語的意思就綽綽有餘了。希望您能確實釐清這三個概念,以理解標準化為目標來閱讀本書。
此外,個人建議不擅長數學的人不要把數學公式轉換為文字,而是直接把公式記進腦中。本書雖然會使用公式,但幾乎不會展開數學公式進行推導,就算不懂數理概念也不用擔心跟不上。但是,確實有許多重要概念必須用數學的語言來記述。上述的「平均數」與「變異數」也是透過數學公式定義而成的。若一旦看到這些名詞,就試圖用「所以它的意思是……」的想法逐一置換為別的詞彙,那麼光是這部分的翻譯工作就會讓您無暇顧及其他。隨著登場概念的增加,這些名詞彼此間的關係也會變得隱晦難懂。請別將數學公式翻譯為文字,而是將公式的樣貌記進腦中,並暫時擱置於心底。這麼一來,這些概念就會在不知不覺中固定下來。
好了,我會在「教室」等待各位來臨,請在任何方便的時間前來聽課。
東京大學教養學部教授
倉田博史
前言
我所就任的東京大學教養學部,每年上學期都會開設「基礎統計」這項統計學的入門課程,開放1、2年級的文、理組學生選修。儘管該科目並非必修,對升級不會造成影響,但仍有非常多的學生選修,每年大約有1500人,且大多數學生都是1年級。雖然這門課也能在下學期或2年級時選修,但大多數學生都會選擇在1年級上學期修習。由於教師人員不足以因應如此龐大的學生數,目前我們開設5堂相同課程班級,減少1個班級之中的聽課人數。
這麼看起來,統計學似乎是很受歡迎的學問(當然它也是具有自身的趣味),但比起學問本身的樂趣,學生的選課動...
目錄
前言
第一部 開啟統計學的大門
第一章 開啟統計學的大門
01 分析數據的目的
02 統計學的功用:量化概念
03 統計學的功用:預測
04 統計學的功用:檢驗假設與分類
05 統計學的一般性
第二部 解讀數據
第二章 關於數據的基礎知識
01 數據的維度
02 量化資料與質性資料
03 數據的測量尺度
04 橫斷資料與時間序列資料
05 數據的設限與截切
第三章 利用圖表或圖整理數據
01 次數分配表
02 直方圖
03 五數概括法與盒型圖
04 時間序列圖
05 相關與散布圖
第四章 數據中心的指標
01 平均數
02 中位數
03 眾數
04 加權平均數
05 關於平均數的計算
第五章 數據分布的離散程度指標
01 平均差
02 變異數
03 標準差
04 標準化(1)
05 標準化(2)
第六章 相關與迴歸
01 共變異數
02 共變異數的機制與相關係數
03 相關係數的機制
04 迴歸直線
05 關聯係數
第三部 描繪出數據背後的整體結構
第七章 母群體與樣本
01 分析數據的目的
02 母群體與樣本
03 隨機抽選
04 機率模型
05 投擲硬幣
第八章 機率
01 機率
02 條件機率
03 全機率公式與貝氏定理(1)
04 全機率公式與貝氏定理(2)
05 事件的獨立性
第九章 記述母群體的機率分布
01 機率分布與機率變數
02 數據指的是什麼?
03 機率分布的平均數
04 機率分布的變異數
05 期待值
第十章 離散型機率分布
01 投擲硬幣與白努利實驗
02 二項分布(1)
03 二項分布(2)
04 卜瓦松分布
05 幾何分布
第十一章 連續型機率分布
01 連續型機率變數
02 機率密度函數
03 均勻分布
04 常態分布(1)
05 常態分布(2)
第四部 根據數據進行判斷
第十二章 隨機樣本
01 機率變數的獨立性
02 隨機樣本的定義
03 樣本平均數與樣本變異數
04 無偏性
05 標準平均數的分布
第十三章 估計1
01 點估計與區間估計
02 母體平均數的區間估計(已知母體變異數的情況)
03 母體平均數的區間估計(未知母體變異數的情況)(1)
04 母體平均數的區間估計(未知母體變異數的情況)(2)
05 簡單的數值例
第十四章 估計2
01 大數法則
02 母群體比率的估計:伯努利分布中的隨機樣本
03 母群體比率的估計:點估計與信賴區間
04 數值例
05 最大概似估計法
第十五章 統計假設檢定
01 虛無假設與對立假設
02 檢定方式
03 顯著水準
04 t檢定
05 母群體比率的檢定
第十六章 兩群體間的比較
01 實驗組與對照組
02 雙樣本t檢定
03 互有關聯的數據
04 Wilcoxon等級和檢定
05 因果推論
第十七章 質性資料的分析
01 列聯表
02 獨立性檢定(1)
03 獨立性檢定(2)
04 比例的同質性檢定
05 卡方分布
第十八章 迴歸分析
01 迴歸模型
02 迴歸模型的估計與檢定
03 複迴歸模型
04 決定係數
05 虛擬變數
第十九章 時間序列分析
01 變異數與共變異數
02 平穩性
03 AR模型(自迴歸模型)
04 ARMA模型(自迴歸滑動平均模型)
05 ARCH模型(自迴歸條件異變異數模型)
第二十章 補充說明
01 無相關與獨立的關係
02 關於機率變數的和的平均數與變異數
03 測定貧富差距:羅倫茲曲線
04 測定貧富差距:基尼係數
05 檢定的補充說明
結語
參考文獻
前言
第一部 開啟統計學的大門
第一章 開啟統計學的大門
01 分析數據的目的
02 統計學的功用:量化概念
03 統計學的功用:預測
04 統計學的功用:檢驗假設與分類
05 統計學的一般性
第二部 解讀數據
第二章 關於數據的基礎知識
01 數據的維度
02 量化資料與質性資料
03 數據的測量尺度
04 橫斷資料與時間序列資料
05 數據的設限與截切
第三章 利用圖表或圖整理數據
01 次數分配表
02 直方圖
03 五數概括法與盒型圖
04 時間序列圖
05 相關與散布圖
第四章 數據中心的指標
01 平均數
02 中...