自序
這本手冊是獻給有心踏出統計套裝軟體舒適圈、挑戰自己的社科人及民調人所寫的實戰手冊。它其實不該是以「書」作為最終出版形態問世。這本手冊應該是個可以不斷隨著R的節奏更新、為讀者提供最新做法的線上版app。不少R的專書作者都已經使用「R bookdown」來這麼做了(這是R社群在2017年提供的知識分享形式,請見bookdown.org)。我期待自己、同仁及同好有一天都能這麼做。在台灣學術社群及讀者接納這個bookdown 風潮之前,紙本書仍然是最容易上手、最有學習效率的知識載體。所以我決定將這十年不斷更新的「政治學研究方法」及「經驗研究與資料分析」的教材轉為這本手冊。
我的大學背景是政治理論,毫無程式設計背景、甚至到博士班時連微積分都還沒讀過。大學時我把自己歸類為社會組,不願意打開習慣領域。2000年赴美留學後,迎接了一連串的震憾教育。一開始接受訓練使用Stata、後來使用SAS完成碩士論文、2002年時因指導教授興趣轉向而接觸到R,最後要用R完成所有的資料分析(這過程中還包括了棄Windows移轉到Linux的血淚)。這個過程中每次轉折,對流著哲學及人性關懷血液的自己來說,都是痛不欲生的磨難,有時甚至會想回台灣買一本中文SPSS,學會那種點放之間就可以看到報表的學習方式。走過風雨之後,我好不容易接受了這種痛是來自學習與蛻變的事實。我總算瞭解了為什麼美國前段的大學院校會全面迎向R,但也在心中浮起一個期待,希望其他學習者不要再經歷這種碰撞與消磨。畢竟不是所有人都曾經擁有美好的博士班時光,可以放下萬緣、完整的把時間浪費在學習看似與當下生命無關,又在就業市場看不到前景的事物(包含R)。當時,真無法預見十年後,R成了全球跨學門的統計工具、成了新興學門「資料科學」(data science)的基本語言之一、甚至可以成為就業市場中的加分項目。而這過程中,R被全世界不斷被接納、被應用、被簡化,一路讓學R這件事從難如登天到成為可系統學習及傳授的技術,速度飛快。我在社會科學院教R,每年改寫教材,感受深刻。只能說,後面來的學習者(就是你)比較幸福。
這手冊是為沒有任何程式語言背景的學子寫的。但前提是你能夠從別的地方取得本書無法涵蓋的基本統計學及資料分析的知識,把這一本當作是某種操作說明書(guide)。我刻意把這本手冊寫短(小)寫淺(白),是希望能協助以下幾種人上手入門。第一種是覺得自己必須用R來做資料分析的人。透過這本書縮短學習摸索的時間,減低那種既急切卻又不得其門而入的徬徨。第二種是正在不同資料分析工具之間,打算作出評估與選擇的人。透過這本手冊,親自上手後,再來判斷R 是不是真的是最難學的工具。第三種是在學術界及業界處理民意調查資料的人。透過這本書找到SPSS之外的第二把刷子。
在今天,若你能簡單一句話告訴別人「我會用R做資料分析」,就相當於說出「我不怕難、我有能力面對程式語言、我有能力用英文自學、我有能力從資料中發掘真相」。這些都是未來好的研究所、政府單位、公司行號需要的能力。擁有這種能力,便能擁有敏銳的知識觸角,當然就會是人才。R是一種語言,端看你怎麼用它。就像你會說簡單的英文,卻不一定要用英文寫詩。在R的世界,沒有人真的能全面學會了R及它的應用面,但在你的世界裡,你仍然可以掌握它,並且跟它一起進步。
這本書無法涵蓋各種R的應用面,只能引領你進民調資料的料理廚房。民調資料最大的特色是它是類別型資料,而且是直接碰觸到民眾偏好的資料。因此,我建議資料科學家不妨留意這個社會科學較為擅長的資料領域,因為這種小資料的含金量不見得會低於從社群網路耙下來的大數據。我也同樣期待社科人在使用這本手冊學會用R分析民調資料之後,勇於跟其他使用R的學門(如心理、教育、公衛等)接軌,開始碰觸資料科學家所經常接觸到的連續型變數資料,讓強調意義的專業與強調分析的專業交融在一起。
這本手冊從構想到誕生走過了十個年頭。感謝何宗武教授的鼓勵、康藝晃教授的腦力激盪、中山政研所同仁及每一屆勇於嘗試R的同學,幫助我搭建這座連接政治科學與資料科學的橋。感謝家人的耐心與陪伴,感謝王昱尹及邱俊廷同學在製圖及校對上如及時雨一般的協助。感謝五南劉靜芬副總編輯團隊在出版各個方面提供彈性和鼎力協助。最後,也謝謝你願意嘗試,希望這本手冊能對你有幫助。
劉正山
2018 年5 月11 日
高雄西子灣