所謂的資料科學(Data Science),就是利用數據分析來解決問題。
面對龐雜的數據,該怎麼做才能將之消化成能進行決策的關鍵?
別以為只有統計專家或數理高手才做得到,
就算沒學過統計學,抓住本書6重點,你也能立刻上手,讓數據產生真正實用的價值。
1.先有目的,再開始蒐集資料,順序不能顛倒
被數字包圍,埋首於分析時,經常會演變成追求分析「結果」。但不管最後得到多詳細、多明確的結果,如果不符合「目的」,其實就是白忙一場。你得學會「成立假設」,抓住4個重點,蒐集過程才不會走偏。
2.加工資料、適度分解,重點就會跳出來
蒐集到的資料通常是絕對值,不妨透過「比例形式」加工,和其他資料組合對比,就能變成更實用的情報。然後再依基軸(例如時間、性別、地區)分解,原本隱藏住的特徵就會清楚浮現,分析角度也會變得更寬廣。
3.發揮「平均數」的功用,掌握市場大方向
投入一個新商品時,最先考慮的是是否有發展希望。這時可以將「平均數」當作代表值,再乘以其他變數,就能大致掌握市場規模,並且判斷投入資本需多少年才能回收,倒過來計算時,也能得知多少銷售量才能達到收益目標。
★小撇步:在Excel中輸入=AVERAGE(),或直接選取函數公式,即可算出平均值。
4.將數據可視化(圖表化),才能發現潛在風險
光靠平均數還不夠,透過「偏差值」更能檢視營運狀況。利用直方圖將離散程度視覺化,推估風險衝擊程度,就能做出合理假設並模擬最壞狀況。如此一來,不僅能提升資料質感,說服力也瞬間倍增。
★小撇步:在Excel中輸入=STDEV(),或直接選取函數公式,即可算出標準偏差值。
5.善用相關分析,把錢花在刀口上
花了錢宣傳,自然希望大有成效。假設現在有三種促銷策略可選:電視廣告、送折價券、店內舉辦特別活動,哪種方案的效益最高?該怎麼評估?確認資料的「相關性」強弱關係,就能找出利潤最大化的方案。。
★小撇步:在Excel中輸入=CORREL(),或直接選取函數公式,即可算出相關係數。
6.拿出數據加上清楚表達,簡報才不會功虧一簣
拿出數據,會增加簡報的可信度,但「分析」和「傳達」可是兩件不同的事。若只是將所有分析資料都秀出來,容易讓重點失焦,恐怕聽眾也會一頭霧水。建議你可用簡短句子引導出重點,並同時展示出自己和競爭對手的比較關係,才有機會讓簡報變成正式提案。
大數據時代,所有資料都能被分析,
但分析出的結果,是否符合你原本目的?
輸入資訊,0.5秒就跑出圖表,
但這是該加碼還是該收手的訊息,你看懂了嗎?
所有工作實務都脫離不了數字,
會解讀就會活用!
本書用一張Excel教你輕鬆搞定!
【本書特色】
•AI時代必備的數據分析力,絕不能錯過!
•從蒐集資料、分析應用到簡報提案,上班族必備技能一次學會!
•強化數字力,就等於培養多樣化思考能力!
【專業推薦】
•齊立文 《經理人月刊》總編輯、鄭宗記 政大商學院副院長
【專業審定】
•胡智超 國家華語測驗推動工作委員會測驗統計分析師、國立彰化特殊教育學校教師
作者簡介:
柏木吉基
1972年出生,日本神奈川縣人。慶應義塾大學理工學部畢業後,進入日立製作所工作。取得美國Goizueta Business School的MBA學位。2004年進入日產汽車工作。任職於海外行銷&銷售部門後,成為組織開發部企業改革小組經理。在董事的領導下,參與「新公司、新組織的成立方案」、「全球業務流程分析、評價、改善」、「人才養成計畫」、「人、物等的全球資源最適化」等的經營課題解決企畫案。平日就在推廣思考決策論(Decision Science)。走遍全世界120個國家,舊東海道五百公里。
【審定者簡介】
胡智超
經歷:
1.台南大學教育系測驗組。
2.台南大學測驗統計研究所碩士班。
3.台灣南部地區資優學生甄選(含縮修)題庫資源之擴充與管理:96/03/01~98/06/30負責自然科(可google「資優 GISA」, 7/1到隔年2月在國小實習和考教師檢定)。
4.99-101年度攜手計畫課後扶助方案學生評量計畫:99/03/01~99/07/31負責英文科(3月回研究所完成論文時加入此計畫。於8月初去當兵,離開計畫)。
5.國家華語能力測驗電腦適性化題庫研發計畫(華測會):100/09/07~101/08/14
(退伍後隔天便進入華測會擔任測驗統計分析師)。
6.國立彰化特殊教育學校:101/08/22~迄今,擔任國小部導師。
*3、4、5皆是擔任測驗統計分析的工作,主要工作是測驗的預試、描述統計(古典測驗理論)、組卷、難度分析(試題反映理論)、結論和結案報告。3、4是研究所時擔任助理,兼任助理工作如上所述,與專任助理(正職)之差別在於不包含與各縣市聯絡人與學校溝通和施測計畫。5是畢業後之工作,與另一名測驗統計分析師一起處理華測會所有測驗相關事宜。
譯者簡介:
黃瓊仙
輔仁大學日文系畢業。熱愛文字工作的專職譯者,希望讓讀者感受輕鬆、愉悅的閱讀經驗。
章節試閱
◎分析必須符合目的,否則再厲害都沒意義
整理以假設為前題的思考模式優點:
(1)省略不必要的分析
如果一開始就想好「該調查哪些資料」,就會知道需要什麼樣的資料、該如何取得資料,並減少摸索的時間。同時也能省略修正、無謂的分析等步驟,縮短作業時間。如此一來,就能利用多餘的時間進行多面相的分析,完成更加精準(品質更優)的報告。
(2)確認分析目的
即便是多麼明確與精準的分析結果,如果不符合目的,將毫無意義。被一堆數字包圍,終日埋頭於分析作業,等回過神時,才發現根本忘了「因為想知道什麼而調查」的原始目的,只是一味追求分析結果而已。不知在什麼時候,已忘了「分析目的」是什麼。
假設要找出營業額變少的原因,辛苦調查某商品的銷售資料,發現三十歲世代男性消費者,與二十歲世代女性消費者的消費行為趨勢類似。如果以此為依據進行分析,搞不好會出現好結果,可是對於當初所設定「找出營業額減少原因」的目的,將成效不彰。
(3)從大局著想,利於制定論述
假設也可以說是為了達到目的所使用的手段。譬如,以「調查營業額下滑原因」為目的時,可以透過假設,針對商品、店鋪、整個市場等幾個線索(觀點)架構假設理論。將多項假設的分析結果予以組合,就能針對目的提出多面相、多方位的觀點,導出更具說服力的答案(論述)。
•2個重點,做出完美假設
看似完美的假設方法,也有必須注意的重點:
(1)錯失課題的風險
假設方法的第一步是設定目的或課題。換句話說,如果是相同的資料,當其中隱藏著更重要或更有利的情報時,可能會在最初階段就忘了要成立假設,因而沒找出其他重要的情報。
「假設方法」與「網羅方法」是對立的概念。網羅方法不會限定目的或課題,而是從片面,開始針對蒐集到的情報進行網羅式分析。相較於假設方法,需要花費更多時間與心力,但是能意外發現答案的可能性更高。
假設方法的焦點只鎖定於與目的有關的事物(只是假設的理論),這些事物就是分析範圍。因為方向明確,很可能會有錯過遺落於路邊的寶貴情報之風險。
(2)偏差風險
假設不過是檢證前的「想法念頭」而已。這樣的假設多少會夾雜個人的主觀想法,難免會有受到當事者成見或偏見所影響的風險。
譬如,現在要找出營業額下滑的原因,如果只針對商品問題或賣場問題等,只限「自家公司」問題範圍設立假設,而忽略了競爭商品的影響及整個產業動向,可能會遺漏了根本重點。
如圖0-2所示,就算已經學會好幾項分析技巧,如果在前面階段的假設失敗,蒐集到的資料及分析方法都會變成不適合(有時候會變成錯誤資料),最後變成最差勁的報告(圖0-2的「結果說明」部分),品質大幅降低。
尤其分析者對自己的假設有強烈成見或過度自信時,分析結果會有所偏頗,變成只是為了「證明該假設是正確」而分析。也就是說,完全無視於資料不適合該假設的現實。如果沒有找出符合假設的結論,就會一再分析、舉例,結果卻告訴你,資料蒐集的方向根本是錯的。
更糟糕的狀況是,本人完全沒有察覺方向已經偏頗。這是容易犯錯的陷阱之一,心理學稱為「確認偏誤」。
不過,如果能知道確認偏誤的存在,提醒自己養成自我檢視的習慣,就能避免這項風險。從資料蒐集階段到分析階段、結論成立的最後階段,都可能發生確認偏誤,所以一定要養成經常檢視的習慣。
◎資料蒐集重點④
出現「離群值」,不代表錯誤結果
所有數據當中,有一個擁有異常數值,明顯與其他數據不同的數據點,稱為「離群值」(outlier)(如圖1-9)。
一個離群值會因它的異常方式,對分析結果造成巨大影響。有時候會讓你得不到原本想要的結果,所以不能輕忽離群值的影響力。
譬如,現在要算出在某日、某個時段藥妝店來客數五十人的平均營業額,結果算出的數字是2,640日圓。假設在同一時段,只有一人的消費額是20,000日圓。結果因為這個人,讓平均營業額變成3,040日圓。比較兩者結果,一人平均消費額有了400日圓的差距。
如果只問結果,一人平均消費額的數據可能會有400日圓的差距(風險)。這純粹是一名特定顧客造成的影響,如果拿這個結果去捕捉其他顧客的消費行為特徵,一定會得到錯誤的訊息。
不過也要牢記這一點:「出現離群值,不見得就是錯誤的結果。」分析作業時最重要的就是知道「離群值是存在的」這件事。如果沒有任何正當理由,卻出現離群值的話,在分析資料前,必須把出現離群值的資料移除。
•視覺化資料,就不易錯過離群值
雖然也可以透過資料數尋找離群值,可是若只是瀏覽原始資料,有時候會錯過離群值的存在。最好將資料製成分布圖之類的曲線圖,予以視覺化,才能有效率地找出離群值。關於不自然的偏離部分,要確認其之所以存在的理由。
舉之前的藥妝店為例,將資料圖表化後,注意到突出點。假設將焦點鎖定在兩萬日圓的購買者,調查了這個人的購買物品內容,假設其購買的商品是好幾年才賣出一個的,售價兩萬日圓的健康器材。而我們的目的是「推算一般的平均購買額度」,如此一來,便無從判斷這樣的資料是否妥當。
重複分析好幾次,卻仍然得不到想要的結果時,就代表有被遺漏的離群值在擾亂結果。通常這時候才會察覺到離群值的存在。不過只要有意識可能會有「離群值」存在,就很容易找到離群值。
此外,關於離群值還有一件事務必要提高警覺:絕對不能為了得到「更完美」的分析結果,無條件地或有意圖地將離群值排外(實際上這樣的誘惑比想像中大)。
◎風險有多大?離散程度會告訴你
標準差和標準化係數都不是只要算出數字是多少就好,要用於實務上,才能成為真正有價值的情報(在解說統計學時,常常只是算出指標數據就結束了,不會想該如何運用於實務上)。
那麼讓我們從風險觀念,挑戰以下兩種應用方法。
(1)相對評價:比較其他資料,看哪一方風險大
與其他資料的離差做比較,進行「大」、「小」的「相對性」評價。如果要以商業語言解釋離差,「風險」二字是最恰當的解釋,可以說「離差大=高風險」。
一般說來,風險二字常被視為負面字彙,因此多數人總認為風險低比較好。可是在商業領域裡,風險不是只有負面涵義,也有正面意義(因為「離差」是正負兩邊都有)。也會有高風險、高報酬的時候,所以風險未必是不好的象徵。
(2)風險衝擊程度的推估:將可能會發生的離差影響予以數據化
推估離差會造成什麼樣的影響?譬如,透過售價的離散狀況,能計算總營業額會出現什麼樣的差異。
首先,使用A先生的例子,進行相對評價。
圖3-10是競爭對手在B國賣出五百臺旋風吸塵器的售價實錄資料,依據這份資料算出平均售價及標準差。
使用先前介紹的STDEV函數(81頁),輕鬆算出標準差8,937日圓,平均數依舊是42,948日圓。
因為自家公司產品沒有進入B國市場銷售,A先生想使用,有銷售自家公司旋風式吸塵器產品的D國資料。因為是以D國資料取代B國資料,為了安全起見,至少必須事前確認售價是一樣,而且風險相近。
因此,也一樣準備了其他競爭公司在D國的同期銷售業績資料,總共五百份,得出如下一頁圖3-11的結果。雖然這是概略的競爭企業售價資料,但至少看不出來兩國之間的售價有太大的差異,而且風險也相近,沒有太大的落差。
如果認為這個結論自家公司也適用,A先生就可以稍微安心地使用自家公司所蒐集到的D國資料。假設B國與D國的平均售價一樣,如果標準差(=售價的離差)有明顯差距,表示這兩個市場的風險性大不相同,一方的市場資料就無法適用於另一方。
•定量化離散程度,模擬最壞狀況
到目前為止,都是使用標準差計算離差,雖然標準差是離差的指標,但也必須清楚瞭解這個結果對於業務會造成多大的影響。就經營者立場來看,要知道最糟的狀況是賠一百萬日圓,還是一億日圓。如果不知道影響有多大,就無法判斷風險狀況。
因此,如果要知道標準差對離差造成多大影響,一定要予以定量化。所以,如果能掌握離散範圍,就可以合理假設最壞的狀況與平均狀況,並且進行模擬。作法就是下一個直方圖單元的風險評估第二項應用:(2)風險衝擊程度推估。
◎相關係數:決定資料的強弱關聯
那麼,試著具體分析「相關性」吧!說的更嚴謹一點,兩項資料的相關性,指的就是比例關係。請各位回想國中的數學,如果以公式表示,資料X與資料Y的比例關係就是Y=aX+b(a、b是常數)。資料X和資料Y的關係會因為常數a正數或負數而有所不同。如果常數a是正數,當X增加,Y也會增加;當a是負數時,X增加,Y就會減少。
相關性程度有強與弱。強弱程度是以當一方的資料到達什麼程度時,會連帶影響其他資料的動向來決定。資料之間的相關性強弱度,是以名為「相關係數」的指標來表示。相關係數會因相關性的強弱程度,和兩項資料的增減方向相同或相反,數值介於-1至+1之間。如果相關係數是正數,就表示是正的相關性(兩項資料的增減方向相同),數值愈接近1,相關性愈強。+1的話,就是完全比例關係;如果是0,表示完全沒有相關性(請見圖4-3)。
相反地,當兩項資料的增減方向相反,呈現負數相關性,就是負數的相關係數,數值愈接近-1,負向相關性愈強。
•相關程度無關數值大小
舉個具體例子。假設每週記錄某間小兒科診所在流感盛行期間的平均等待看診時間。等待看診時間應該會隨季節或疾病的流行而有所變動(當然與星期幾和時間也有關係)。
另一方面,政府機構會發表流感的盛行情況,盛行情況與小兒科的等待看診時間有一定的關聯性。雖然未必是完全的比例關係,但如果有「某方增加(減少),另一方也隨之增加(減少)」的關係,(正數)相關性便成立。如果計算這個例子的相關係數,數值應該是在0以上、1以下(可能更接近1)吧。
相關分析不在意兩項資料的單位或數值大小的差異,就像這個例子,任何方式的資料組合都是可行的,因為只會顯示數據比例關係的強弱程度而已。我認為這就是相關分析的魅力,其應用範圍無限寬廣。因為只要準備兩項資料,就理論而言,不管如何組合都可以進行相關分析。
◎分析必須符合目的,否則再厲害都沒意義
整理以假設為前題的思考模式優點:
(1)省略不必要的分析
如果一開始就想好「該調查哪些資料」,就會知道需要什麼樣的資料、該如何取得資料,並減少摸索的時間。同時也能省略修正、無謂的分析等步驟,縮短作業時間。如此一來,就能利用多餘的時間進行多面相的分析,完成更加精準(品質更優)的報告。
(2)確認分析目的
即便是多麼明確與精準的分析結果,如果不符合目的,將毫無意義。被一堆數字包圍,終日埋頭於分析作業,等回過神時,才發現根本忘了「因為想知道什麼而調查」的原始目的,只是...
作者序
◎數字力,就是你的超能力
「我想成為數字解讀能力很強的商務人士。」
這句話背後涵蓋了許多事。任何人都一樣,要將腦海裡知曉的事物與每天工作的自己連結在一起,確實很難。應該很多人有這種感嘆吧?
數字只要再加點東西,就能獲得看不到的情報。這個「數字加工法」就叫做「統計」或「資料分析」。不管你手邊有無資料,如果不懂這個「加工方法」,許多情況下,其實你已經錯過了寶貴資訊。
那麼,如果有訣竅和技巧能降低數字的整理難度,可以更有效地使用統計數字或資料分析數字,不是很棒嗎?可是,就算閱讀過市面上多本傳授統計和分析方法的書籍,卻還是無法加以活用的人,應該不少吧?
「統計」或「資料分析」只是一個名詞稱號,其實個中方法所涵蓋的範圍很廣,沒有真正的極限標準。
不過,還是要學會基本常識,那就是除了部分專門行業,商務人士在一般商業現場會用到的方法。
首先將焦點鎖定於方便使用的方法,學會有效的應用訣竅及思考模式後,慢慢地,你會覺得學會這些方法是「值得」且「聰明」的作法。
基於這樣的考量,本書傳授的方法從「平均分析法」到「單一迴歸分析法」都網羅了。每個方法只要使用Excel,就可以立刻得知分析結果。
本書重點如下:
(1)看到眼前的資料,如何跨出第一步並加以利用。
(2)「分析結果」的效率使用方法。
(3)透過分析,創造具說服力的故事情節。
整體而言,本書以「製作事業計畫書」為例,介紹資料的實用使用方法。不過,本書並不是事業計畫書製作方法的教學指南書籍,請各位諒解。
如果本書能成為讓你變成「擁有優異數字解讀能力商務人士」的入門書,深感榮幸。
2013年4月
柏木吉基
◎數字力,就是你的超能力
「我想成為數字解讀能力很強的商務人士。」
這句話背後涵蓋了許多事。任何人都一樣,要將腦海裡知曉的事物與每天工作的自己連結在一起,確實很難。應該很多人有這種感嘆吧?
數字只要再加點東西,就能獲得看不到的情報。這個「數字加工法」就叫做「統計」或「資料分析」。不管你手邊有無資料,如果不懂這個「加工方法」,許多情況下,其實你已經錯過了寶貴資訊。
那麼,如果有訣竅和技巧能降低數字的整理難度,可以更有效地使用統計數字或資料分析數字,不是很棒嗎?可是,就算閱讀過市面上多本傳授統計和分...
目錄
前 言 數字力,就是你的超能力
序 章 善用數字做企畫,就能變成正式提案
﹝序 幕﹞先有目的,才開始蒐集資料
鎖定範圍,培養分析時的思考力
設定假設,分析就不會走偏
分析必須符合目的,否則再厲害都沒意義
4個重點,成立有效的假設
利用「金字塔結構圖」,讓邏輯更順暢
﹝專 欄﹞廣泛網羅資料,找出關聯性
第 一 章 有目的地蒐集資料,數據才有價值
﹝第一幕﹞資料不是蒐集到就好,重點在於如何使用
清楚真正需要什麼,就不怕假設錯誤
資料蒐集重點① 連假設範圍周邊的資料也蒐集
資料蒐集重點② 鎖定「主軸」,蒐集到的資料才派得上用場
資料蒐集重點③ 選擇適當範圍,才能得到精準結論
資料蒐集重點④ 出現「離群值」,不代表錯誤結果
為資料加工,讓分析角度變寬廣
﹝專 欄﹞比較資料時,要以「相對值」表示
第 二 章 創造收益前,務必分析大局
﹝第二幕﹞擬定策略前,先掌握市場大方向
市場規模有多大?該怎麼算?
平均數不等於最讓人安心的中位數
「中位數」是瞭解自我市場定位的關鍵
如何讓平均數發揮最大功效?
﹝專 欄﹞使用公開資料時,須留意可信度
第 三 章 風險不是愈小愈好,重點在於精準掌控
﹝第三幕﹞數據可視化,發現潛在風險
透過標準差計算風險
利用Excel算出標準差
標準差在實務上的意義是……
風險有多大?離散程度會告訴你
離散程度具體化,就用直方圖
2步驟製作直方圖,數據意義一目瞭然
以向上(下)擺動值,預估風險範圍
考量2因素,風險狀況更準確
6個理由,說明標準差如何活用於實務
﹝專 欄﹞2個公式,簡單分析母體資料
第 四 章 錢要花在刀口上,靠相關分析就對了
﹝第四幕﹞利用過去的資料,思考未來的策略
什麼策略能花最少錢,創造最大效益?
相關係數:決定資料的強弱關聯
捨棄複雜公式,Excel能輕鬆解讀分布圖
怎樣的相關係數,才叫有相關性?
如何分析相關性,最大化利潤?
避免分析做白工,你得注意……
電視廣告V.S.折扣券,哪個最能增加營業額?
﹝專 欄﹞這樣做,一次能分析多種組合
第 五 章 達成目標需要多少預算?
﹝第五幕﹞做出判斷的關鍵,在於「反推」思考
單一迴歸分析,導出X、Y的關係
成立迴歸分析法,前提是……
簡報時,直線分析圖最容易被理解
雷聲大也可能雨點小,相關係數和斜率沒有絕對關係
迴歸分析法應用① 從斜率值看出成本效應
迴歸分析法應用② 看清非原因造成的結果
迴歸分析法應用③ 分解資料後再進行分析
迴歸分析法應用④ 當作計算KPI的工具
﹝專 欄﹞單一迴歸分析與多元迴歸分析,哪個較好用?
第 六 章 為什麼簡報要這樣做、那樣表達?
﹝最終幕﹞不能只是秀出資料,還要清楚傳達
分析和傳達,就是不同兩件事
3個方法,簡潔傳達重要訊息
將分析資料視覺化,放大效果
使用「可以比較」的軸別,作為依據
邊執行邊確認,才不會偏離主軸目的
﹝專 欄﹞鎖定範圍於影響度最高的資料
結 語 拿出數據,一擊就中
前 言 數字力,就是你的超能力
序 章 善用數字做企畫,就能變成正式提案
﹝序 幕﹞先有目的,才開始蒐集資料
鎖定範圍,培養分析時的思考力
設定假設,分析就不會走偏
分析必須符合目的,否則再厲害都沒意義
4個重點,成立有效的假設
利用「金字塔結構圖」,讓邏輯更順暢
﹝專 欄﹞廣泛網羅資料,找出關聯性
第 一 章 有目的地蒐集資料,數據才有價值
﹝第一幕﹞資料不是蒐集到就好,重點在於如何使用
清楚真正需要什麼,就不怕假設錯誤
資料蒐集重點① 連假設...