前言
處處講求資料分析的時代
隨著以大數據(Big Data)為代表的資訊科技持續發展,各種有關生活及商業的資料皆記錄保存下來,人們變得更容易取得大量資料。這種現象對我們的生活帶來什麼改變呢?
資訊傳播革命帶來的其中一個大變化就是,以往只有特定的專業人士必須具備資料分析能力,如今各行各業都開始要求這項能力。
舉民間企業為例。
業務部或行銷部經常能聽到這樣的對話:
「我想知道下一期該採用何種廣告策略才能提升業績,你可以幫我調查打過廣告的商品業績資料,分析廣告對業績的影響嗎?」
人事部也不時能聽到這樣的對話:
「我想知道該用什麼方法才能提升員工的工作效率。只要觀察員工的內勤工作時間、外勤工作時間及銷售成績等資料,就能明白勞動時間對銷售成績有何影響吧?」
其實,不只民間企業產生這種變化。在行政機關或學校這類非營利組織任職的人,接觸到的資料同樣比過去還多,而且更常需要分析資料,或是利用別人的資料分析結果。
舉例來說,自從日本導入事業分類(譯註:針對國家與地方政府的事業進行公開討論,判斷該事業是否有其必要、該由誰負責、預算有無浪費之手法)後,行政機關就經常進行這樣的討論:
「我們需要分析去年實施的補助金政策成效,並向財務省報告。領取補助金的企業資料應該都有蒐集起來。只要經過分析,就能得知補助金的成效吧?」
同樣的,學校之類的教育現場,近來也開始注重教學評鑑或教育成效評鑑,因此經常進行這樣的討論:
「為了得知之前使用的教材何者較具成效,我們就蒐集學生的理解程度資料進行分析吧?」
文科與理科都必須具備的分析力
從前大家都認為,資料分析屬於對數字敏感的理科專業領域。不過,在今後的時代,無論你從事理科或文科方面的工作、處於何種立場,都必須具備資料分析能力。
光看前面的例子就知道,運用資料分析的人不只技術員及科學家而已。文科人今後也會越來越常遇到必須分析資料的狀況。
此外,如同前述,在職場上即便你不是負責分析資料的那個人,依據「某人的資料分析」做出重要決策的機會同樣越來越多。因此,就算你不是分析負責人,一樣需要鑑別資料分析結果的能力「以免被某人的資料分析欺騙」。
大數據時代下不可或缺的分析力
儘管社會出現這樣的變化,仍有許多人不熟悉「資料分析」這個概念。日本的小學至高中都有數理科目,但我們的學校教育卻鮮少教導「資料分析」之概念。
近年來出現一種論調,認為大數據提供許多資料,可解決一切問題。其實,人的判斷對資料的處理、分析、解釋具有非常重要的作用,這點從本書的內容就能窺知一二。
最近商業界――特別是IT業――越來越重視分析力(Analytics),並且認為光有大數據依舊很難進行實務改善,剖析大數據使之可用於商場決策才重要。
尤其在本書聚焦的「釐清因果關係」這點上,就算增加資料量也無法根本解決問題,因此我們必須具備解析資料的能力。
資料分析的原則與壽司師傅的工作有共通之處
資料分析的重要原則,與壽司師傅的工作有共通之處。據說要做出好吃的壽司,至少必須注意3個重點。
第1個重點是,採購優質食材。第2個重點是,具備能發揮食材美味的刀工。即便有了優質食材,如果料理者缺乏技能,不知道該從哪個角度切下食材,品嘗時就吃不出食材的美味。第3個重點則是,能否提供眼前顧客所要求的味道或餐點。
題外話,筆者目前住在美國,當地雖然找得到選用優質食材的壽司店,但要找到「刀工好到能發揮食材美味的師傅」,或是「餐點符合日本人口味的師傅」就不容易了。
資料分析也可說是一樣的情況。
在資訊傳播革命的影響下,大多數的人都能更容易取得好資料(食材)。這是一件很棒的事。可是,如果沒學習思考方法,或缺乏「該從何種角度剖析資料」之判斷力,分析時就無法發揮好不容易取得的資料之價值。
此外,就算完美地分析資料,假如分析結果無法回答待解決的課題,便會面臨「分析結果明明很精彩,卻完全派不上用場」這種本末倒置的情況。
那麼具體而言,分析資料時,需要哪些觀念與技能呢?
如果能有一本專門解說這方面新知的入門書,應該能幫助許多人吧?這就是筆者撰寫本書的動機。
在經商與施策的各種場面上,釐清因果關係是決定成敗的關鍵
本書為資料分析入門書,聚焦於「廣告對業績有影響嗎?」、「實施某政策真能對社會帶來良好影響嗎?」這類因果關係的探究方法。為什麼要聚焦於因果關係呢?這是因為,在有關生意或政策的各種場面上,釐清因果關係對實務家而言非常重要。
舉例來說,前美國總統歐巴馬(Barack Obama)2012年競選總統時,就是因為確切釐清競選廣告策略的因果關係,才能再募到約6000萬美元(72億日圓)的政治獻金。IT企業Google則分析網站文字顏色與瀏覽人數的因果關係,藉此提升利潤。計程車業的生力軍Uber,也是藉由釐清價格與消費者行為的因果關係,找出可平衡司機人數與使用者人數的方法。
近來許多企業都懂得利用因果關係分析,找出最佳的商業策略,這種情況逐漸成為常態。
除此之外,認真分析因果關係,也可發現立意良善的政策反而造成意料之外的結果,抑或原本以為沒什麼效果的政策其實產生不小的成效。
舉例來說,日本政府為改善汽車燃油效率而實施的環保政策,其實反而促使汽車重量增加。美國政府為刺激景氣而實施的環保車政策,其實只是撒錢政策,無助於刺激景氣。另外,對青少年實施的犯罪預防教育,不但抑制犯罪的成效超乎預期,更令人意外的是,這對學業也有良好影響。
以上這些有關生意或政策的具體事例,只是本書介紹的資料分析運用事例的一部分。只要閱讀本書,便可透過各種有關生意或政策的具體事例,了解因果關係分析為何重要、為什麼不易分析,以及有什麼解決方法。
本書的目的與結構
本書不使用數學表達式,而是運用具體事例及視覺化的描寫,解說資料分析概念中最基本的「釐清因果關係的方法」。
當然,要成為資料分析專家,必須具備靈活運用深入的統計學知識與統計軟體的能力。不過,從事資料分析的實務工作與教育工作的筆者認為,學習入門知識,亦即「分析眼前的資料時必須注意什麼」時,不透過數學表達式理解,而是採「直覺式學習」也很重要。
因此,希望「學了統計學或計量經濟學,卻無法喜歡上這門學問」的人,也可以將本書當成課外讀物來閱讀。不如說,筆者撰寫本書的目的,就是希望你在看完之後,能夠覺得「原來資料分析這麼有趣呀。既然可以做到這些事,我就再多學一點更深入的知識吧」。
第1章要解說的是,從資料導出因果關係為什麼並不容易。前面所舉的業務部與行銷部的例子、人事部的例子、行政機關的例子與學校的例子,四者的共同點是:資料分析的最終目的,大多為釐清「某個行為(X)對結果(Y)造成何種影響?」之因果關係。
以行銷的例子來說,問題就是「廣告(X)對業績(Y)造成何種影響?」;以學校的例子來說,問題就是「教材(X)對學生的理解程度(Y)造成何種影響?」。第1章將針對「為何這個乍看之下十分簡單的問題,難以透過資料分析得到答案」,進行直覺式的解說。
第2章介紹的是,可百分之百解決「難以導出因果關係」之問題的最佳方法。在醫學與經濟學等學術領域,這個方法稱為RCT(Randomized Controlled Trial,隨機對照試驗),在商業領域則稱為A/B測試。這在醫學領域是運用已久、很常見的手法,但在經濟學與商業領域則是直到最近才常被使用,可說是最新的手法。這個章節同樣採直覺式說明,不使用數學表達式。
倘若每次都能運用最佳方法RCT當然是最理想的,只可惜因為某些緣故,能夠運用RCT的機會很有限。
假如不能使用RCT,我們該如何導出因果關係、解決問題呢?
近年來,經濟學領域十分盛行這項研究。「自然實驗(Natural Experiment)」便是其中一種「善加利用猶如做過實驗的狀況」,可運用在各種場合上的手法。第3章至第5章便是解說,當我們無法使用RCT時,可以改用何種「自然實驗法」。
第3章介紹的方法是RD設計(Regression Discontinuity Design,不連續迴歸設計)。
這是一種只要善加利用世上的「界線」,即使無人進行實驗,依然能製造出「猶如做過實驗的狀態」之方法。這裡說的界線十分廣義,像地理上的界線、企業調整定價的分界點、可領政府補助金的年齡……等等,全都包含在內。因此,能夠運用這個方法分析資料的機會比想像中多。
第4章介紹的是,最近在經濟學研究的推廣下開始運用的手法「堆集分析(Bunching Analysis)」。
報酬或支款大多呈「階梯狀變化」,例如採累進稅率的所得稅、薪資結構、政府設置的規定值之變動、企業制定價格的方式……等等。只要善加利用這類階梯狀變化,同樣能製造出「猶如做過實驗的狀態」。
第5章介紹的是「縱橫資料分析(Panel Data Method)」,這種手法用於可取得數個期間的資料之情況。
我們的身邊有許多可每月或每年蒐集的資料,例如廣告支出、業績、職員的勞動時間、學生的成績……等等。此外,我們不只能蒐集個人或單一企業的這類資料,也能蒐集數人或數家企業的資料。第5章即是解說,如何利用「數個期間、數個對象的資料」分析因果關係。
那麼,實際在企業或公共機構任職的實務家,該如何將第2章至第5章介紹的資料分析手法,應用在實務決策上呢?
第6章即介紹許多國外的具體事例,並探討如何將資料分析,應用在商業策略或政策制定上。
本書畢竟是入門書,前6章省略了適合高階者閱讀的內容。本書介紹的方法論都是學術上最新的方法,在實務上也非常有用。不過,任何方法論都有弱點或缺點,了解這些弱點與缺點十分重要。因此,筆者將第7章訂為進階篇,解說資料分析的不完全性與極限。
假如第2章至第5章介紹的方法全都無法使用,我們該如何分析資料呢?目前經濟學領域仍持續研發,可用於這種狀況的分析手法(工具變數法、匹配法、合成對照群法、離散選擇法、結構估計法等)。可惜,這些手法必須借助數學表達式才能解釋清楚,本書就省略不談了。不過,筆者會在第8章介紹推薦書籍給想進一步學習的人。
本書是以2014年10月,筆者於波士頓日籍研究者交流會上演講的資料為基礎,添加筆者在芝加哥大學任職時的授課內容與研究內容而成。內容以方法論及具體應用事例為主,針對一般民眾解說「經濟學的實證分析」領域的其中一部分。說到經濟學,大多數的人應該會想到「利用數學表達式進行理論式分析的經濟理論」。不過近年來,經濟學領域除了研究經濟理論外,也很盛行研究「經濟學的實證分析」,也就是「使用資料,分析理論預測是否真在現實社會中發生」。如果你在看完本書介紹的資料分析具體事例後,能夠覺得「原來經濟學與經濟理論結合資料分析後這麼有意思」,筆者會很開心的。
2016年秋季 寫於芝加哥
伊藤公一朗