序言
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三,其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書內容。由於「R軟體」(R語言)可以下載開放原始碼與免費,已成為量化統計分析的主流軟體之一,R軟體安裝簡易,軟體安裝字型可以選取適合研究者專屬的語言類型,外掛套件之函數功能幾乎包括所有統計學介紹的內涵。R軟體強大的統計分析功能、可以進行各種函數運算、有多元的繪圖功能,同時具備計算與繪圖環境的語言,有立即互動模式視窗、也有可以編寫一系列語法指令的「R編輯器」視窗。R軟體結合繪圖、數理統計、計算等特性,研究者除可直接使用內定函數進行統計分析與繪製圖形外,也可以自行撰寫語法指令列進行快速的分析程序。
本書從使用者觀點出發,從實務的角度論述,聚焦於預測分類程序方法的統計應用。資料探勘(data mining)數據分析中,一個重要的統計法為「決策樹」(decision tree),根據反應變數屬性的不同,決策樹模型又分為「迴歸樹」(regression tree)與「分類樹」(classification),決策樹主要功能在於預測分類,各章節的實務論述中,也介紹R軟體相關函數的應用與語法功能。
本書內容詳細介紹R軟體各種套件函數在決策樹的應用分析,完整說明對應函數預測分類的使用語法指令,決策樹圖形繪製函數的解析與應用,如何分割資料檔以訓練樣本建構決策樹模型,如何以建構決策樹模型對測試樣本進行預測分類之效度檢定,各種決策樹模型的效度檢驗法等。此外,為讓讀者對數據資料的預測分類有進一步的瞭解,最後以範例解說複迴歸分析與迴歸樹的綜合應用、邏輯斯迴歸與分類樹的綜合應用、區別分析與分類樹的綜合應用等。
本書得以順利出版,要感謝五南圖書公司的鼎力支持與協助,尤其是侯家嵐主編與劉祐融責編的行政支援與幫忙。作者於本書的撰寫期間雖然十分投入用心,但恐有能力不及或論述未周詳之處,這些疏漏或錯誤的內容,盼請讀者、各方先進或專家學者不吝斧正。
吳明隆、張毓仁 謹識
2017 年 2 月