◎新技術或是新商品的效能,被人批評說只是偶然,你怎麼證明自己?
◎「本公司年終獎金平均六個月」,老闆沒撒謊,為什麼員工根本不可能領到?
◎形狀不規則的一小塊建地,我怎麼精確計算面積?
◎經濟成長GDP很難保一,但餐飲業整體營收卻大幅成長兩成,
所以餐飲業值得投入?其實,這是臺灣年輕人低薪的原因。為什麼?
統計可以告訴你。
在網路時代,只要會用電腦和讀取工具,就能蒐集到大量數據,
大家莫不被大數據的可能性給驚呆了,
但統計才是讓大數據說出真相、派上用場的關鍵。
作者涌井良幸畢業於筑波大學數學系,涌井貞美畢業於東大理學科研究所。
他用只需要國中程度的數學能力加上圖解,就能擁有工作上一定用得到的統計能力。
◎爆量資訊時代,學統計才能以簡馭繁。
蒐集數據不難,只要懂一點統計的基本原理,你就能檢定驗證各種假設:品牌忠誠 度提高了嗎?支持率4成4的候選人為什麼輸給支持率4成3的?奶茶和茶奶真的 喝得出來?裝瓶機器誤差很大嗎?
按計算機很麻煩,本書教你一步步用Excel,立刻能把資料處理成真相。
◎懂這些基礎知識,就抓到統計的精髓,別讓「平均」二字唬弄了你。
‧資料有兩種:數字與文字,而文字的資料可以用數值替換,作者教你如何整理成 高度說服力的表格和圖表,看出變數彼此的關係與特質。
‧認識平均數、中數、眾數。大部分報告只提平均數,會造成偏頗──
平均薪資5萬的公司待遇很好?可能是一位主管月薪30萬,10位員工都領22K。
兩家公司平均待遇都是4萬,但有提到各自的變異數和標準差嗎?
這數字讓你看到平均數和事實誤差有多大。
◎統計、隨機抽樣,和母體的機率,講這個你就比別人專業!
‧隨機抽樣不等於隨便抽樣。
為什麼民調抽樣有效樣本1000人還不足以代表全國?
但為什麼有些抽樣數目不到30,代表性卻很高?
‧除此之外,將數據「標準化」,可以讓不能比的兩組數據變得可以比較,像是比較全班國文和數學考試的成績表現、兩個國家國民的購買力等等。
◎資料分析應用,絕對會讓簡報看起來很漂亮。
用圖表方便看出兩件事情的相關性:
‧散布圖,容易找出異常數字、連計算都不必,就幫助你不誤判。
‧股市線圖其實不難懂,根本就是統計圖。
‧把混亂的資料分組、畫長條圖,可以很快抓出其中的規律和秩序。
◎估計與檢定,讓你不隨便相信媒體說的話。
‧媒體告訴你的任何數字,該相信嗎?家庭主婦有多少零用錢、棒球選手的打擊率、學生的算術能力提升……媒體報導是否正確,看用什麼統計方法就知道。
‧工作上的大小事,如問卷調查結果、用機器工作的誤差、大人和小孩對食物的偏好,估計和檢定能給你「有把握」答案。
◎迴歸分析、變異數分析和貝氏定理,絕對是你升職加薪的好夥伴
想要找出各種變數的相對關係,只要運用這3種方式就行了。
‧用迴歸分析做預測,像透天厝變多,汽車的銷售會增加多少、住宅數與年收入對賣車影響程度、用電越來越兇,將來每戶每月用電量可能多少……。
‧變異數分析證明現象非偶然,證明你策略用對、而非運氣好;證明新老師或新的教學方法,真的有效……。
‧貝氏定理可以提高推論準度:健康檢查準確度、如何判斷這是不是垃圾郵件……。
本書逐步圖解Excel的操作步驟,
當別人還在為大數據如何解釋而傷腦筋,你已逼近真相的最核心。
作者簡介:
涌井良幸
1950年出生,筑波大學數學系畢業,目前從事高中教職,以及從事電腦演算法與統計學研究。
有多部統計學相關著作,如《用貝氏統計學作為道具》;另和弟弟貞美合著有《圖解迴歸分析》、《圖解多變量分析》(以上由日本實業出版社出版)、《史上最強圖解:這樣一定懂!統計學》、《用Excel學統計分析》(以上為Natsume社出版)等。
涌井貞美
涌井良幸的弟弟。1952年出生,於東京大學理學科研究所碩士畢業後,進入富士通株式會社工作。其後,曾擔任日本神奈川縣立高等學校教師,現為自由作家,活躍於各書籍以及雜誌的寫作工作。
已在臺灣出版《身邊常見的現代化生活科技:讀完變身「上知天文、下知地理」的小博士!》(與哥哥良幸合著)。
譯者簡介:
林信帆
臺大工商管理學系畢業,日本國立九州大學經濟學碩士,取得中國生產力中心第十屆中日同步口譯人才培訓研習班結業證書,擅長中日對譯,目前專職從事醫學、核能、光電、機械設備、電機工程、金融商業、美容等口筆譯工作。
譯有《你是將才,怎麼被看見?》、《蘋果、亞馬遜都在學的豐田進度管理》、《一人開公司也能搞定的財務管理實務》(皆為大是文化出版)。
章節試閱
只要國中程度的數學就能看懂
時間如果倒轉回100年前,一般人應該沒有機會接觸到統計資料!近年來,隨著社會資訊化的快速發展,現在的我們是生活在資訊的洪流中。所以對現代人來說,處理資訊的統計能力已經是不可或缺的知識。特別是學習統計所得到的以下兩種能力,更是必要的常識。
第一種就是取得各種資料時,能加以活用的能力。因為在資訊化時代不能正確運用手中資訊的人,不論是在工作上或人生中,都會處於無法做出適當判斷的狀況。
第二種則是分辨資料分析結果的能力。一看到四面八方來的統計資料,大多數人都會以為正確無誤而全盤接受。事實上統計資料一定內含提供者的主觀意識,有時甚至是有意捏造的假資料,所以接受資料的人必須有能力分辨提供者的用意。
一直以來,日本文科學生當中也有不少人因為高中、大學入學考試不考,選擇放棄學習數學,這麼一來數學的程度就停留在國中。還好現在這個現象慢慢在改善了。
本書是統計的超級入門書,國中程度的人都看得懂。非常希望讀者們都能利用本書,學會統計的素養,讓大家在現代社會中活得更聰明。
為什麼統計現在成了顯學?
為什麼統計學現在這麼受到重視?
近年來隨著電腦的功能越來越強大,大家可以說都生活在資訊的洪流中,所以這個時代又被稱為資訊化時代。每天在推特或臉書等網路社群上,都會產生龐大的資料,正所謂是「大數據時代」。在這種時代,統計分析能力之所以重要,有以下兩個理由:
第一就是取得各種資料時,能加以活用的能力。在資訊社會中,如果不知道如何活用龐大的數據,資料就只不過是一座垃圾山。不過只要有一點統計分析能力,就可以把這座山變成資訊的寶山。在資訊化時代,不能正確活用手中資訊的人,不論是在工作上或人生中,都會無法做出適當的判斷。
第二則是分析結果的能力。現在來自四面八方的統計資料,常經過一些人的解釋後,便會公布在大眾傳媒上。問題是這些人的解釋並不一定正確。甚至有人會故意捏造不實的解釋。所以,英國政治家班傑明‧迪斯雷利斬釘截鐵的表示,統計是比該死的謊言更大的謊言。不過只要有一點統計分析能力,就可以戳破扭曲的解釋。
人類的文明史,其實就是統計出來的歷史
統計學的歷史可追溯至文明的起源,因應社會的需要而發展演變至今。特別是電腦的發展,大幅改變了統計學的形貌。
統計學的起源可說是和國家的起源一致。西元前,古埃及為了建造金字塔,就已經進行了許多統計調查行動。羅馬帝國時期也做過人口與土地(Census)調查。「Census」也正是今日「人口普查」的語源。
由上可知「統計」與「國家」自古以來就有密不可分的關係。「統計」的英語是「Statistics」,德語是「Statistik」,都是自拉丁語的「Status」(國家、狀態)衍生而來。這是因為執政者為了徵稅與徵兵等,必須正確掌握國家的狀態。所以自 17 世紀開始,統計學就已經是一門研究人口普查的正式學問。有一句話說:「有國家就有統計」,就是最好的象徵。
到了現代,統計學已經不只是為執政者服務的學問。不論是必須處理和社會與科學有關的龐大資料的研究人員,或是追求利益的公司或個人,都必須能將統計學運用自如。此外,現代電腦科技的蓬勃發展,也成為統計學的強力後盾,讓統計學的應用領域更寬更廣。在資訊化的社會,統計學正可說是最強的武器。
別講大概,要說機率:一件事可能發生的程度
利用取得的資料來預測未來或是資料母體的全貌,這是統計學的重要工作。也就不會有「大概⋯⋯吧」的說法,會以明確的機率來表示。
如果只是蒐集很多資料來求平均數或變異數、調查次數分配,以了解過去或現狀,這樣的統計學和機率論較不相關。可是如果要利用過去或現在的資料預測未來,或是利用部分來掌握全貌,對推論統計學來說,機率就是不可或缺的概念。
事實上,要理解統計學並不需要很高深的機率論。如果能理解以下內容,就能抓到重點。
「當我們擲一枚硬幣,出現正面的機率是多少?」答案就是「如果正面和反面可能發生的程度相同,那就是1 / 2」。機率其實就是把這個想法一般化後形成的理論,定義如下:
「假設一件事共有n種發生方式,而且每種方式發生的機率相同。其中A事情的發生方式假設有r種,那麼A事情發生的機率就是r/n。」
這裡的r/n為0和1之間的數值,如果數值趨近1,A事情就很容易發生,如果數值趨近0,A事情就不太會發生。出現方式的總數就稱為樣本空間(Sample Space)。而事情在統計學中則稱為事件(Event),像擲硬幣這件事則稱為試驗(Trial)。
隨機抽樣不是隨便抽樣:才足以預測全體樣貌
統計學的樂趣就在於根據取得的資料預測全體,這種手法被稱為推論統計學,接著就要進一步理解推論時所使用的母體與樣本之間的關係。
統計學中將要調查對象全體的資料稱為母體(Population)。而母體的一部分則稱之為樣本(Sample)。另外,母體的資料個數稱為母體大小,樣本的資料個數稱為樣本大小。
由母體中抽出樣本,再根據抽出的樣本來調查母體的狀況,這種統計學就是推論統計學。推論時有一個非常重要的前提,也就是自母體抽樣時不能隨便亂選,而必須以隨機方式抽出。這種抽出方法稱為隨機抽樣(random sampling),而以此方法抽出的樣本則稱為隨機樣本(random sample)。一般只要提到「樣本」,指的就是隨機樣本。這裡有一點必須注意,也就是「隨機抽樣讓母體與樣本之間以機率這條線相連,統計學中才有機率的想法」。
此外隨機抽樣有兩種方法。以之前提過的身高為例,比方說要抽出100人的資料作為樣本,那麼可以一次同時抽出100人份的資料,或者是一次抽出一個人的資料,然後放回去,再抽出下一個人的資料,以此類推。前者稱為不可置換抽樣(Sampling Without Replacement),後者則稱為可置換抽樣(Sampling With Replacement)。理論上來說統計學採用可置換抽樣,不過母體越大,兩種抽出方式的實質差異就越小。
只要國中程度的數學就能看懂
時間如果倒轉回100年前,一般人應該沒有機會接觸到統計資料!近年來,隨著社會資訊化的快速發展,現在的我們是生活在資訊的洪流中。所以對現代人來說,處理資訊的統計能力已經是不可或缺的知識。特別是學習統計所得到的以下兩種能力,更是必要的常識。
第一種就是取得各種資料時,能加以活用的能力。因為在資訊化時代不能正確運用手中資訊的人,不論是在工作上或人生中,都會處於無法做出適當判斷的狀況。
第二種則是分辨資料分析結果的能力。一看到四面八方來的統計資料,大多數人都會以為正確無誤而全盤接...
作者序
前言
只要國中程度的數學就能看懂
時間如果倒轉回一百年前,一般人應該沒有機會接觸到統計資料!近年來,隨著社會資訊化的快速發展,現在的我們是生活在資訊的洪流中。所以對現代人來說,處理資訊的統計能力已經是不可或缺的知識。特別是學習統計所得到的以下兩種能力,更是必要的常識。
第一種就是取得各種資料時,能加以活用的能力。因為在資訊化時代不能正確運用手中資訊的人,不論是在工作上或人生中,都會處於無法做出適當判斷的狀況。
第二種則是分辨資料分析結果的能力。一看到四面八方來的統計資料,大多數人都會以為正確無誤而全盤接受。事實上統計資料一定內含提供者的主觀意識,有時甚至是有意捏造的假資料,所以接受資料的人必須有能力分辨提供者的用意。
一直以來,日本文科學生當中也有不少人因為高中、大學入學考試不考,選擇放棄學習數學,這麼一來數學的程度就停留在國中。還好現在這個現象慢慢在改善了。
本書是統計的超級入門書,國中程度的人都看得懂。非常希望讀者們都能利用本書,學會統計的素養,讓大家在現代社會中活得更聰明。
前言
只要國中程度的數學就能看懂
時間如果倒轉回一百年前,一般人應該沒有機會接觸到統計資料!近年來,隨著社會資訊化的快速發展,現在的我們是生活在資訊的洪流中。所以對現代人來說,處理資訊的統計能力已經是不可或缺的知識。特別是學習統計所得到的以下兩種能力,更是必要的常識。
第一種就是取得各種資料時,能加以活用的能力。因為在資訊化時代不能正確運用手中資訊的人,不論是在工作上或人生中,都會處於無法做出適當判斷的狀況。
第二種則是分辨資料分析結果的能力。一看到四面八方來的統計資料,大多數人都會以為正確無誤...
目錄
本書結構圖
前言 只要國中程度的數學就能看懂
Chapter 0 爆量資訊,學統計以簡馭繁
1. 為什麼統計現在成了顯學?
2. 理解隱藏在資料背後的本質
3. 人類的文明史,其實就是統計出來的歷史
專欄一 「開放資料」藏好料,可以挖寶
Chapter 1 分析資料,懂這些基礎知識就夠用
4. 資料有兩種:量化和質化
5. 整理成表格,就可以看出資料有什麼特徵
6. 表格畫成圖,特徵更是一目瞭然
7. 平均數:資料中最重要的代表值
8. 中位數、眾數:幫你看出資料的五官輪廓
9. 變異數、標準差:看出資料的離散程度
10. 變異、變異數的大小,顯示資料所含不確定性
11. 散布圖:以視覺凸顯兩個變數的關係
12. 相關係數:用數字表示兩個變數相關程度
13. 交叉分析?就是把清單整理成列聯表啦
專欄二 兩個以上變數對結果的影響,用多變量分析
Chapter 2 統計、隨機抽樣、與正確描述母體的機率
14. 別講大概,要說機率:一件事可能發生的程度
15. 隨機變數,就是用數字表示你的試驗結果
16. 統計學的目的:想知道隨機變數的出現機率
17. 隨機變數的平均數與變異數計算
18. 數字排排站。機率分配的P值、百分位數
19. 標準化:看似不能比的兩組數據變得可以比較
20. 隨機抽樣不是隨便抽樣:才足以預測全體樣貌
21. 母數:用以表現母體特質的數字
22. 抽樣取得估計量,希望和母數一致
23. 自由度:讓抽樣「不偏」母數
24. 誤差總是或多或少,誤差值會呈現常態分配
25. 中央極限定理,讓好的抽樣逼近真理
26. 樣本平均數定理,重複多次抽樣就知道母體什麼樣
27. 95%的信心水準,認為這就是母體平均數
專欄三 迴歸分析:歸納既有事實,預測未來可能結果
第3章 估計,與檢定你的估計
28. 用點估計太篤定,用區間估計有信心
29. 區間估計,來自樣本的統計量
30. 我有九成五的把握……
31. 對估計有信心,因為世事多屬常態分配
32. 樣本相同,想提高信心水準、信賴區間就放寬
33. 其實我們常常用統計來檢定想法的對錯
34. 想法正確卻遭到捨棄的機率:顯著水準
35. 想否決的假設,想證明為真的假設
36. 事實的檢定,永遠面臨型一與型二錯誤
專欄四 因素分析:原因看似很多,共同因素可能只有一個
Chapter 4 預測:迴歸分析、證明某現象並非偶然:變異數分析、提高推論準度,生活中最常用:貝式定理
37. 簡單迴歸分析:用單一變數來預測另一變數
38. 複迴歸分析:用兩個以上的變數來預測
39. 判定係數,判定迴歸模型配適度
40. 調整自由度,刪除無助於預測的變數
41. 證明某現象並非偶然,用變異數分析
42. 變異數分析的關鍵:組內離散與組間離散程度
43. 變異數分析三步驟
44. 計算瑣碎,Excel一秒完成
45. 變異數分析的原理:去同存異
46. 兩個變數對結果的影響:無重複試驗
47. 重複試驗下,分析兩個變數對結果的影響
48. 變異數分析Excel代勞,但要弄懂名詞定義
49. 情人的加分扣分,請遵照貝氏定理
50. 貝氏定理超實用,先看懂四名詞
51. 看似繞口令,其實是推理
52. 貝氏定理:隨著資料增加,推論越加準確
專欄五 主成分分析,把一堆變數歸納成幾個
Chapter 5 資料分析應用實例
53. 如何調查兩件事情的相關性
54. 用散布圖剔除異常數字,以免誤判
55. 股市線圖,根本就是統計圖解
56. 統計圖解,看出差異和變動
57. 分組、畫長條圖,找出混亂資料的秩序
專欄六 區別分析:怎樣的性能條件,價格能定到極致?
Chapter 6 活用機率、抽樣,與描述母體之前……
58. 賭博之前,先算期望值
59. 地皮形狀不規則,怎麼計算面積?
60. 人生有好運壞運,想得到公平結果,你得……
61. 為什麼醉漢總是能走回家?
62. 抽樣至少要超過30個的統計學根據
63. 全國性大調查,樣本多少才夠?
專欄七 集群分析:把眾多受訪者,按照特性分成幾群
Chapter 7 活用估計與檢定
64. 什麼情況下會發生這種事?用最大概似估計法
65. 家庭主婦有多少零用錢?抽大樣本
66. 只能抽小樣本,如何檢定假設?
67. 母體變異數一向如此,推估目前平均數
68. 推估單身比率、市場占有率的方法
69. 選民支持率的調查,抽樣1000人誤差頗大
70. 上班族的零用錢差異程度
71. 調查吸菸率、支持率是否升高
72. 學生算術能力提升了嗎?這樣檢定
73. 新生兒體重變輕了?如何檢定
74. 最近十天你睡夠了嗎?這樣檢定
75. 調查兩地上班族的零用錢是否相等
76. 比較兩選手的打擊率
77. 裝瓶機器誤差很大嗎?這樣檢定
78. 老闆給我的「粉」,量總是不穩定嗎?
79. 骰子是否公正?檢查方法跟你想的不一樣
80. 某地男女比例是否失衡
81. 奶茶和茶奶,真的喝得出來?
82. 大人和小孩喜歡的料理不同嗎?
專欄八 質化問題,可以數量化分析
Chapter 8 迴歸分析、變異數分析和貝氏定理怎麼用
83. 透天厝變多,汽車銷售會增加多少輛?
84. 住宅戶數與年收入對賣車影響程度
85. 用電越來越兇,將來每戶每月用電高達幾度?
86. 策略用對了,不是運氣好的證明方式
87. 新老師或是新方法,真的有效嗎?
88. 營養品或睡眠對膚質的影響(無重複實驗)
89. 營養品或睡眠對膚質的影響(重複實驗)
90. 下注,猜袋中白球有幾顆
91. 健康檢查準確度95%,其實很低喔
92. 有了線索,要不要改變猜測?
93. 線索可以提高猜中機率的證明
94. 電腦如何判斷垃圾郵件?用貝氏定理
95. 用貝氏定理來猜天氣,準度大增
附錄A:用Excel來計算百分位數與各種分配的p值
附錄B:用Excel做迴歸分析、變異數分析
本書結構圖
前言 只要國中程度的數學就能看懂
Chapter 0 爆量資訊,學統計以簡馭繁
1. 為什麼統計現在成了顯學?
2. 理解隱藏在資料背後的本質
3. 人類的文明史,其實就是統計出來的歷史
專欄一 「開放資料」藏好料,可以挖寶
Chapter 1 分析資料,懂這些基礎知識就夠用
4. 資料有兩種:量化和質化
5. 整理成表格,就可以看出資料有什麼特徵
6. 表格畫成圖,特徵更是一目瞭然
7. 平均數:資料中最重要的代表值
8. 中位數、眾數:幫你看出資料的五官輪廓
9. 變異數、標準差:看出資料的離散程度
10. 變異、變異數的大...