文字探勘基礎：從R語言入門-FindBook 找書網 ISBN:9786263665743

章節試閱

Chapter 2　　讀入與初步了解R資料

第一節　前言
　　程式碼為電腦能聽懂的語言。學習程式碼，就像學習英文單字一樣，經過日月的積累，就會越來越多，當能記住最基本的100個左右的基本用語，就可以較自由地與電腦對話了。至於較困難的詞，可以查查字典。透過邊用邊學，詞彙就會越來越豐富，表達起來就越來越自由。
　　R自己本身所具有的程式碼，包含最基本的功能，稱為Base R。Base R中所包括的指令，不用安裝任何套件，R就可以讀得懂，並且執行。
　　關於Base R的指令，建議下載RStudio線上免費的Cheat Sheet（https://www.rstudio.com/resources/cheatsheets/），它包含Base R的主要指令，用圖形化的方式給予應用上的講解。

第二節　設定R的工作環境
一、設定工作的編碼系統
　　文字探勘比較特別的地方是以文字作為分析的資料。因為各國的文字不同，編碼系統就不同。即使同樣是中文，也需要統一成一致的編碼系統，才不會出現亂碼。一般來說，研究者會先告訴R，所處的區域是哪裡，它就會自動轉換成那個區域最常見的編碼系統。R的中文系統是uni-code 6。程式碼如下：
設定區域：
sys.setlocale(locale="cht")
　　RStudio有四個窗口。左上角是程式區，左下角是指令區，詳細說明可以參考第一章。視窗的右上角是「物件區」，剛開始會呈現空白。下述會先介紹「檔案區」，再對物件區進一步說明。
二、設定工作資料夾
　　如同一般的電腦操作一樣，當讀取資料的時候，需要告訴電腦在哪裡讀資料，也就是提供資料檔所在資料夾的路徑。比較特別的是，R會在一個固定的資料夾中工作，這個固定的資料夾叫做「工作資料夾」。當你的程式碼沒有特別指定其他資料夾時，R都在工作資料夾中工作，包括讀取舊檔案和儲存成新檔案。因此在讀取資料前，需要先設定工作資料夾。寫程式碼如下：
設定工作資料夾：
setwd(" 路徑名稱")
　　用戶也可以在右下角檔案區Files這個菜單裡，用點選的方式。
　　點選的目的地就是用戶要讀取資料的地方，這個地方還會成為默認的工作資料夾，電腦之後再讀取或儲存資料，都會在這個資料夾裡進行。進入這個資料夾後，就要把它設置成Working Directory。先點More的下拉菜單，然後選取Set As Working Directory，這樣電腦就會記住這裡是工作資料夾，也就是它讀取和存儲檔案的地方了。

Chapter 2　　讀入與初步了解R資料

第一節　前言
　　程式碼為電腦能聽懂的語言。學習程式碼，就像學習英文單字一樣，經過日月的積累，就會越來越多，當能記住最基本的100個左右的基本用語，就可以較自由地與電腦對話了。至於較困難的詞，可以查查字典。透過邊用邊學，詞彙就會越來越豐富，表達起來就越來越自由。
　　R自己本身所具有的程式碼，包含最基本的功能，稱為Base R。Base R中所包括的指令，不用安裝任何套件，R就可以讀得懂，並且執行。
　　關於Base R的指令，建議下載RStudio線上免費的Cheat Sheet（https://www.rstud...

顯示全部內容

作者序

　　跟所有人一樣，從來沒有想過自己會出版一本寫著自己名字的書，特別是一本跨領域的關於電腦編程的書。
　　在思考很久以後，主要出於兩個目的而寫了這本書。第一，是提供給我在國立中山大學行傳所開設的「電腦內容分析和社會網絡分析」這門課的同學一本實用的教科書。從2017年開始，我已經教這門課7次了。選修這堂課的同學通常不多，可能的原因是大家都很害怕用R語言來寫電腦程式。學習電腦語言程式就好像學一門新的語言，因此需要背很多內容。同學們通常聽完一節課，就被各種各樣的電腦指令給嚇壞了。就像學習一門新語言需要一本好用的字典，同學們需要有一個羅列不同場景中完成不同任務所需要之程式碼的教科書，可以隨時查找。我常說不用硬記程式碼，只要會copy和paste就好了。我自己也是只記住了很少量的程式碼，每次分析資料都會回頭查看過去的筆記。之後，有了這本書，寫程式碼應該就方便多了。
　　寫這本書的第二個目的，是幫助人文社會科學領域沒有編程基礎的同學或學者自學文字探勘的技能。常常有老師向我表示，他們也想學習文字探勘的技能，請教該如何入門。我常常說不太清楚，因為編寫電腦程式的細節太多了。因此，我會推薦他們去讀Julia Silge和David Robinson的Text Mining with R—也是我自學入門所用的書，但我心裡知道，那本書主要是針對英文的文字探勘，若要應用到中文的文字分析，自學者需要走很多的彎路。如果有一本中文文字探勘的書，並且是從人文社會科學領域闡述編程的概念，會使自學者更加容易掌握文字探勘的技能。本書的大部分內容並不是我創造的，而是在遇到教學和研究上的問題之後，於網路上找到的答案。很多國內外的學習夥伴，無私地在網路上分享他們研究的心得、疑問和答案，我主要做的工作就是按照文字探勘研究的流程，把這些內容系統性地歸納在一起。
　　我對這本著作又愛又恨，恨它的原因主要是每次重讀都發現有錯誤，包括錯誤的描述和跑不出來的程式碼。客觀上，是因為R作為open source的程式語言，每個套件的作者都在更新和修改他們的功能，很多去年跑得出來的程式碼，今年就跑不出來了。主觀上，是我自己也在學習過程中，受限於知識，過去覺得對的描述，現在卻覺得是錯的或者不夠準確。因此，如果讀者發現了任何錯誤和值得探討的地方，都歡迎寫信給我（yuetan@mail.nsysu.edu.tw）。
　　我由衷感謝，如果沒有我認真、可愛又能幹的助理蘇靖雅，自己一定不可能完成這本書。感謝她細心的校對，使一堆雜亂的資料變成了一本書。也要特別感謝我之前的助理任軒立在資料爬取上所給的指教。還要感謝成大統計學系的李政德老師和中研院的江彥生老師，在我課堂上分別針對機器學習和社會網絡分析所提供的精彩演講，本書很多相關的內容都來自於兩位老師精辟的講解。最後，當然是感謝認真上課的同學們，在授課課程中給了我無數次省思的機會。
　　最後的最後，感謝愛我的上帝給我一切的資源和機會。希望這本書對你有幫助。上帝祝福你。

譚躍
2023年7月29日於美國印地安納州布魯明頓市

　　跟所有人一樣，從來沒有想過自己會出版一本寫著自己名字的書，特別是一本跨領域的關於電腦編程的書。
　　在思考很久以後，主要出於兩個目的而寫了這本書。第一，是提供給我在國立中山大學行傳所開設的「電腦內容分析和社會網絡分析」這門課的同學一本實用的教科書。從2017年開始，我已經教這門課7次了。選修這堂課的同學通常不多，可能的原因是大家都很害怕用R語言來寫電腦程式。學習電腦語言程式就好像學一門新的語言，因此需要背很多內容。同學們通常聽完一節課，就被各種各樣的電腦指令給嚇壞了。就像學習一門新語言需要一本好用...

顯示全部內容

Chapter 1　R語言下載與設置
第一節　R軟體下載
一、前言
二、R下載教學
第二節　介紹R
一、R介面與設置
第三節　RStudio下載
一、RStudio下載教學
第四節　介紹RStudio
一、RStudio介面與設置

Chapter 2　讀入與初步了解R資料
第一節　前言
第二節　設定R的工作環境
一、設定工作的編碼系統
二、設定工作資料夾
第三節　將資料讀入R
一、將不同形式的檔案讀入R
二、物件命名
三、執行R程式
第四節　了解R資料
一、透過物件區的菜單鳥瞰
二、指代資料中變項和觀察值
三、描述R的資料特徵
四、以圖形呈現變項的特...

顯示全部內容