序
於本書,筆者嘗試以R語言(底下簡稱為R),以另一種方式重新詮釋統計學;換句話說,本書試著以R 來解釋統計學,其中大多使用台灣的財務金融資料,故稱為財金統計學。以上所言,可有四層涵義:第一,筆者是以直覺、模擬或估計的方式,定義或解釋基本統計學的觀念,希望以此方式能讓讀者有耳目一新與實際的感覺。第二,目前統計學的教科書大多是使用國外的樣本資料或使用虛構的資料,筆者當然希望能以台灣實際的資料取代並進一步做統計分析。第三,筆者希望讀者能以「電腦的計算或電腦的思考方式」取代「用手計算或背誦的方式」,如此自然可以處理日益龐大的統計資料且能將其應用。第四,筆者的專業是財務金融或經濟,因此本書的內容或例子大多集中於上述專業領域。
為何筆者會有構思本書的動機或想法?其理由倒也有四層:第一,筆者已教授(財金系)統計學多年,深深感受到沒有一本得心應手的教科書與工具,而感到對曾經修過的同學有些歉意;傳統統計學的授課方式或內容,還是集中於以「計算機計算」外加「背或理解公式」,筆者早就想擺脫此一困境,只不過一直都沒有動手改善。第二,電腦已經普及到變成我們每天皆會接觸或使用的工具,但是教導計算與推論統計資料的統計學,仍然不用或無法使用電腦,實在過意不去;以往筆者只於迴歸分析部分有指導同學如何使用統計學的套裝軟體,至於其餘部分只好讓同學憑空想像。的確,每次要讓同學了解什麼是「抽樣分配」或「大數法則」就必須多費唇舌,更不用說還要解釋什麼是「卡方、F分配或假設檢定」等觀念了;上述觀念,我們的確可以模擬的方式說明,不過我們卻沒有教授「如何用電腦模擬」。第三,財金統計學應該是屬於中高級部分的統計學,我們通常皆會認為同學以後還會接觸統計學,故於基本統計學內較少使用財金資料或財金(理論)的例子,使得統計學的教法或內容易出現枯燥、乏味、不切實際甚至於不知所云的情況。第四,網路上的資源是相當豐富的,尤其是財務計量或財務統計學的資源更是與日俱增,不應用它們實在可惜;無可諱言的,本書內的許多想法或構思,有許多是來自於網路的啟發。網路上的資訊是可以應用的,只不過仍需用我們的方式過濾。
原本筆者只想寫本書1-7章的內容,原因是依筆者的經驗,一學年的統計學課程,以1-7章的內容外加R的練習已足夠了;沒想到,寫至第7章後,竟然有意猶未盡的感覺,筆者發現「撰寫教科書」居然有點樂趣與意義,竟一口氣寫至第11章外加三個附錄為止。因此,本書總共有11 章的內容,其中,第1章的內容是有關於R與統計學的介紹;第2-7章的內容,大概是依傳統統計學的順序,即依序介紹敘述統計、機率與機率分配,特殊的機率分配(二項式、卜瓦松、常態與t分配)、估計與假設檢定、配適度(獨立性)檢定、變異數分析與迴歸分析。是故,本書1- 7章與附錄的內容適合初學者閱讀與練習之用。
至於本書第8章以後的內容,則依筆者的隨興所至進一步介紹統計上的應用。值得一提的是,筆者認為讀者應該可以及早接觸「最大概似估計(MLE)」方法,其次由於本書已使用R作為分析工具,因此也可以及時認識許多演算方法;是故,本書於第9與第10章內,分別介紹MLE方法與其會使用到的演算方法。另一方面,也因介紹或使用MLE方法,無可避免地需要有向量矩陣的觀念,尤其是向量矩陣的微分概念;因此,於第11章內,我們再加進向量矩陣觀念的介紹,以及於財務金融的應用。換言之,本書第9-11章內容的加入,最主要的理由是因為要介紹或使用MLE方法,MLE方法的重要性或可應用性可想而知。因此,本書第8-11章的內容可以依讀者的喜好,選擇自己願意加強閱讀的部分,自由選讀。
雖說如此,本書仍以只需具備高中數學外加基本微分技巧的讀者為對象。本書的內容大多是以數學公式說明,雖說有時也會使用較複雜的數學式子,但是讀者應記得後者大部分已用R的函數表示;換言之,本書的內容雖有用數學,但是卻不以數學的證明或數學拆解推導的方式為主,取而代之的是,我們多半會使用R而以模擬的方式說明。例如,本書的特色之一是說明且比較,古典t分配與標準t分配之不同,透過R的函數或指令的使用,使得我們即使不是很清楚t分配的數學型式,我們依舊可以利用t分配模擬,甚至進一步計算,例如資產報酬率於t分配下的機率值為何。因此,本書的困難處反而是如何使用或應用R,而不是處理複雜的數學式子;換句話說,上述二者若要讀者選擇其中之一,讀者會選擇那一個?選擇處理複雜的數學式子呢?抑或是選擇如何使用或應用R?筆者是選擇後者,否則本書應以另一種樣貌出現!
R是一個免費的統計計算軟體,筆者會選擇R,就是要擺脫商業統計套裝軟體,如SAS、SPSS或EVIEWS等的限制(須付費或無法攜帶回家,以及版權更新須額外付費等)。換言之,R是一種免費軟體,不管在何處、何時皆可使用,讀者以後畢業離開學校,若不想放棄統計學,則學習R應是一項不錯的投資;因此,剩下的部分是,筆者應該如何說服讀者先要學會R的基本操作,再來學習統計學。也許可以先閱讀R的使用手冊;不過,依筆者的經驗,R的使用手冊只能當作可以隨時查詢或翻閱的參考,卻不適用於閱讀之用。
筆者想到的方式是提供許多R程式的範例,以供讀者學習與練習之用;換句話說,本書的最大特色是,提供本書全部內容的R程式,以供讀者可以複製本書內所有關於計算、模擬、繪圖或製表的結果。我們希望讀者於閱讀本書內容的同時,能有:「我是否也可以得到類似的結果?」、「若使用其他資料呢?」、「上述結果於R內如何表示?」、「我是否可以將其應用?」、「我是否也可以寫出對應的R程式?」、……、「啊!原來如此!」。因此,若從此方向思考,使用R與使用上述商業統計套裝軟體有何不同?應該差不多,但是使用R卻可以揭開所有的神秘面紗;也就是說,我們並不滿意只以「按鍵式的方式」就得出結果來。
舉例來講,我們大概知道簡單的樣本平均數(就是平均數)如何計算,可是我們不是要將其應用於財務分析嗎?我們不是可以將其推廣至計算,例如5日均線(5日的移動平均數)嗎?若是計算樣本標準差呢?此可以當作風險指標的估計值,或者是財務內我們稱為波動率的估計;因此,若是要計算5日的波動率,我們是否也可以計算呢?另一方面,其實我們也可以思考,例如「樣本平均數的分配」是什麼意思?其不是表示「許多的樣本平均數所形成的分配嗎」?我們不是可以透過一種稱為「抽出來再放回去」的方式,計算出相當多的樣本平均數嗎?因此,若是要應用(樣本)平均數的觀念,我們不是多少需要具有「寫程式」的能力嗎?倘若筆者另外再寫一本有關「如何寫程式」的書籍,讀者應該也會提出一個疑問:有必要學那麼多嗎?學這些有何用處?因此,最好的嘗試是:「畢其功於一書」:本書嘗試將「應用」與「使用」結合起來,不僅介紹統計(學)上的應用,同時也教導讀者如何使用電腦語言R。
因此,為了要讓讀者對R有初步的認識,筆者建議除了閱讀本書第1章的內容外,也可以先閱讀本書的附錄。於本書的附錄中,筆者分別複習讀者的基本數學基礎以及關於現值、未來值以及年金的計算(後三者對學財務的學生而言,應不會有太大的負擔);比較特別的是,每一個部分亦皆附有對應的R程式,讀者於其中,應該逐漸對於R 有更清楚的瞭解。最後,筆者仍要提醒讀者注意,由於本書的所有內容,皆附有對應的R程式,因此第一次閱讀難免艱澀難懂,但是若是第二次或是更多次的閱讀呢?換個角度思考,若讀者於閱讀的同時也實際於電腦操作,逐步學習R;如此反而能同時學習統計學與電腦語言,省去自行摸索的時間。更何況,閱讀至後面的章節,讀者的R 實力不是更漸入佳境嗎?為了要提高讀者對於R與統計觀念的瞭解程度,本書大部分的章節皆附有習題,讀者可以先練習沒有附有「*」的習題,再思索沒有練習的部分。
本書的股市資料來源,大多取自「台灣經濟新報資料庫(TEJ)」,筆者於此特別感謝TEJ允許本書與其讀者們,能使用書內有應用到的TEJ 資料;換言之,書內各章節所對應的R程式與樣本資料,皆附於隨本書出版的光碟內,希望讀者能一方面複製出書內的結果,同時也能按圖索驥或舉一反三,達到觸類旁通的效果。倘若讀者欲下載其他的股市資料,由於TEJ資料庫的使用已相當普遍,學校的圖書館應有添購,若無,可就近尋找鄰近的大學院校圖書館下載所需的資料。不過,由於下載的時間不一致,調整後的資料難免有些微的差異;因此,讀者跑出的結果未必與書內完全相同,不過,只要結果相當接近,應該就沒有錯了。最後,值得一提的是,閱讀本書最好的方式,就是除了閱讀書內的內容外,也應於電腦內操作,應該會有事半功倍的效果;另一方面,也許一些圖形會更清晰。
拜科技與網路之賜,(傳統的)統計學教材或內容也應合乎潮流,本書的內容接近於財務或經濟統計學,筆者希望隨著本書的出版,能有拋磚引玉的效果。筆者才疏識淺,匆促出書,錯誤難免,望各界先進指正。前言末小藝廊之圖形乃兒子志潔早期於無素描基礎下,所繪之早期屏東糖廠以及現在的虎尾糖廠;志潔學畫的時間並不長,不過所繪的畫卻讓人驚豔,附上志潔所繪的一些作品,希望可以扮演調劑的功能。使用了大半輩子的中文,沒想到筆者的中文實力於此受到極大的考驗,希望讀者能體會到筆者於書內所欲傳達的意思;還好,內人及時伸出援手校正了本書的初稿。本書的完成,家中的成員皆有貢獻,倒也有一些意思與意義。
本書附有一片光碟,內有書內各章節以及習題所提及的所有樣本資料與R之程式碼。祝操作順利。
林進益
寫於屏東糖廠
2016/8/3