如何運用資料說故事?資料科學最重要的功能在於解讀與呈現其意義。
將資料產生的意義加以串接與形成更多理解世界的線索,並且讓他們的讀者更快、更精準地理解現象背後的真相。
自周敦頤說「文,所以載道也」,後有「文以載道」一說。對資料科學家,「文以載道」就是資料寫作學:讓資料分析成為書寫。如果文件需要對資料作圖表處理和統計分析,用R Markdown 製作文件就是最佳選擇。編輯R Markdown可以直接在R Studio當中進行,在寫R Code分析數據的同時,同時撰寫分析報告,不需要在不同的軟體中進行切換,上手相當容易。
在本書中,將使用RStudio的免費平台,建立好讀者製表、製圖與繪製地圖的基本功,以及運用Markdown語法,將R語法及結果直接與你的解讀編織(knit) 在一起,進而轉為簡報檔或一本線上圖書。分享、讓大眾理解數據資料蘊含的脈絡與現象,是資料寫作最大的價值。
作者簡介:
何宗武
美國猶他大學(University of Utah)經濟學博士,現為國立臺灣師範大學全球經營與策略研究所教授,教學資歷豐富,曾任世新大學經濟學系及財務金融學系教授。
專長
計量建模,財務經濟學,商業資料科學
著作
多本相關書籍如:《大數據決策分析盲點大突破10講:我分類故我在》、《資料分析輕鬆學:R Commander高手捷徑》、《大數據時代的決策思維:資料敘事的起承轉合》、《數位創新:商業模式經濟學》、《管理數學、Python與R:邊玩程式邊學數學,不小心變成數據分析高手》、《財經時間序列預測─使用R的計量與機器學習方法》。
章節試閱
II. R Markdown 的動態文件製作
文件就是微軟Office內稱為Word的軟體。如果文件需要對資料做圖表處理和統計分析,用R Markdown 製作文件就是最佳選擇。如果是純文字,或相對於圖表計算,文字量占極大篇幅,那麼,如果有微軟的Word應該是最佳選擇,不需要再來用R Markdown。R Markdown 是文章內容需要處理資料,也就是圖表和統計計算時,我們可以一氣呵成,且維持文本的可重製性與資料連動性。不需要用大量複製、貼上、插入圖表,還有啟動方程式編輯器。更重要的是,R Markdown的使用時機是因為寫作是主要的工作,且寫作需要輔以資料串流與分析;如果是單純的寫大程式,應該用R Script。
第5章 用R Markdown寫報告或論文
自周敦頤說「文,所以載道也」,後有「文以載道」一說。對資料科學家而言,「文以載道」就是資料寫作學:讓資料分析成為書寫,而不只是在表格上標註1顆星還是2顆星。資料書寫者(data writers),除了學術圈的研究人員,最大宗的應該是記者、自由撰稿人與部落客。除了必須掌握統計原理,資料書寫人也要懂得正確分析結果,並透過文字傳遞。依據不同的工作環境,資料書寫人必須採取不同的溝通途徑,此時,分析結果嵌入可重製性文件(reproducible documents)就非常重要;在可重製性文件下,不但程式和文字交織而成動態文件,隨著資料更新,文件也自動更新。亦可以幫助在書寫過程直接加入分析說明,讓閱讀的人更容易理解統計分析的技術細節。這樣的工作如果用Word來做,就是大量的複製貼上再複製貼上。
R Markdown 就是為了這個目的所開發的整合工具。編輯R Markdown 可以直接在RStudio 當中進行,在寫R Code分析數據的同時,也在撰寫分析報告,不需要在不同的軟體中進行切換,上手相當容易。
不過,使用R Markdown的狀況是書寫為主、資料處理為輔較為適宜。如果演算規模很大,涉及到模擬或平行運算,將演算嵌入Markdown不是一件好事;反而獨立去使用R Script完成計算、儲存結果,然後用R Markdown以圖或表的方式讀取,較為適宜。畢竟,若每次編織文件都要大規模算個30多分鐘,工作流程明顯不當。
R Markdown的資料書寫分成兩種形式:單篇文章與書。輸出格式可以是HTML、PDF和Word三種。技術上,還可以區分成「部落文、簡報和儀表版」。本章以單篇文章開始介紹獨立的.Rmd檔案內容的環境設定。
理論上使用 R Markdown需要3個套件:
install.packages("rmarkdown")
install.packages("knitr")
install.packages("rticles")
其中"rticles"是學術期刊的樣式模板(style template)。呼叫模板,可以省略不少樣式(style)設定問題,後面會詳談。
理論上,因為裝好RStudio時,應該都會代入為基本套件。反正在RStudio環境,有缺少的資源便會詢問裝設。
II. R Markdown 的動態文件製作
文件就是微軟Office內稱為Word的軟體。如果文件需要對資料做圖表處理和統計分析,用R Markdown 製作文件就是最佳選擇。如果是純文字,或相對於圖表計算,文字量占極大篇幅,那麼,如果有微軟的Word應該是最佳選擇,不需要再來用R Markdown。R Markdown 是文章內容需要處理資料,也就是圖表和統計計算時,我們可以一氣呵成,且維持文本的可重製性與資料連動性。不需要用大量複製、貼上、插入圖表,還有啟動方程式編輯器。更重要的是,R Markdown的使用時機是因為寫作是主要的工作,且寫作需要輔以資料串流...
推薦序
推薦序
曾幾何時,其實就是這三、四年間,大數據三個字已不再是紅透半邊天的新興術語,它在媒體的報導中,讓位給了資料科學,再讓給了AI。錯解趨勢的人以為大數據的相關領域變得不重要。其實,正因為新技術的推進,資料科學領域出現了快速的造山運動,現在的技術變成了更新的技術之基礎。當前最新的風潮,已不再是吹捧「我經手的數據有多大」,而是「我能讓手上的數據有多厚」。對大數據的理解已推進到了敘事。沒有能力「說故事」,或把故事分享出來讓人看懂,你就落伍了。你除了有駕馭大數據的基本功,也要能展現一個「資料記者」(data journalist) 的技能與優雅。
當前我們把擁有資料分析、解讀與將結果視覺化溝通能力的(達)人,推崇為「資料記者」。他們比起傳統不動手做資料分析的記者,多了能自己動手分析資料,而且能透過數據分析工具產生圖與表,再將資料背後重要的意義轉譯出來的強項。這本書,無疑是寄望有資料分析興趣與能力的高手們,扮演起資料記者的角色。
何宗武老師以俠客的心腸,透過《文圖互織的資料寫作學:使用R Markdown》這本書,手把手教你扮演好資料記者的角色,為資料增加更多敘事。讓你學會出版之後,能夠充分把你想說的意義快速展現給讀者。你所需要的就是長文件(long form document) 的文字出版能力。當然,最好是不費力地就能將你的想法邊寫邊完成出版。無論是將文件轉為部落格長文,還是進一步轉為書籍,甚至是網站。這件事能越輕鬆越好、門檻越低越好。這本書就是這樣的手冊。
因為data journalist 很難直翻,所以翻作「記者」,或只在傳播學院教,都顯得太窄。畢竟不是只有記者才要升級,每個行業都需要這樣的人才,用敘事能力來跟生成式AI 抗衡。所以我大膽地將何老師這本書的讀者,期許為資料偵探(data detectives)。偵探是一個非常專業、很少人能取代,而且只有少數人能做到的角色。資料偵探,是能夠駕馭自己專業領域的資料並且用它產生意義,或是能使用資料來形成線索的高手。資料偵探要做的事,不限於描述與記錄,更多時候是將資料產生的意義加以串接與形成更多理解世界的線索,並且讓他們的讀者更快、更精準地理解現象背後的真相。
AI 工具正在以副駕駛(copilot) 的身分,進入你我工作所用的電腦與手機。我們該嚴肅地問自己能不能像柯南.道爾筆下的名偵探福爾摩斯,以辦案的精神來看待手邊的資料,以及是不是能將AI 當作是華生(福爾摩斯的左右手,也是最好的辦案夥伴),好好讓它協助你織造意義。AI 能讓你看見取自網路的意見,甚至能為你把想法製成圖片,但是畢竟它不會懂你生活的脈絡,所以還無法代替你解讀資料背後串接的意義。擁有資料分析能力的你,必須是個能常與華生對話的偵探—而不是倒過來請華生來解謎。而且你還要能自己發表想法,不能只靠華生幫你出版小說。
何老師的《文圖互織的資料寫作學:使用R Markdown》使用了RStudio 的免費平台,直接示範教你如何出版「小說」。你將先學會製表、製圖與繪製地圖的基本功。接著,你將學習(或是應用)Markdown語法,在R Markdown 的文件中,將R 語法及結果直接與你的解讀編織(knit) 在一起,形成一份HTML 文件,進而轉為簡報檔或一本線上圖書。擁有這個能力之後,你作為資料偵探辦案的推理過程,就可以快速地與他人分享。這是我個人期待已久的能力,也是我非常想帶給研究生同學的能力。隨著這本書的上線與問世,我相信這能力的火種將落入大學生、社會各行業專家,甚至是高中生的手裡。我們已不知落後英語世界幾年了,在中文世界(終於)有何老師做這件事。若你看看https://bookdown.org/,就會知道何老師(和許多資料科學教育者)是多麼殷殷企盼你後來居上,用資料敘事的能力,打開更多人的視野。
中山大學劉正山教授
推薦序
曾幾何時,其實就是這三、四年間,大數據三個字已不再是紅透半邊天的新興術語,它在媒體的報導中,讓位給了資料科學,再讓給了AI。錯解趨勢的人以為大數據的相關領域變得不重要。其實,正因為新技術的推進,資料科學領域出現了快速的造山運動,現在的技術變成了更新的技術之基礎。當前最新的風潮,已不再是吹捧「我經手的數據有多大」,而是「我能讓手上的數據有多厚」。對大數據的理解已推進到了敘事。沒有能力「說故事」,或把故事分享出來讓人看懂,你就落伍了。你除了有駕馭大數據的基本功,也要能展現一個「資料記者」(dat...
作者序
前言
Data Journalism 經常譯成資料新聞學,其實,就技術層次,這個詞更好的名稱是資料敘事學,畢竟,Journal 一詞更通用的意義是嚴謹且專業的出版物,或稱期刊,不一定指學術期刊。例如,英國《經濟學人》(The Economist) 的內容,對問題的描述必須輔佐專業且清晰的圖表;IMF 的World Economic Outlook 內容,除了專業學理,也有大量專業的統計圖與表來輔佐內容敘事。
本書目的是為資料敘事,也就是將資料圖表分析和寫作整合起來。因為一個好的圖表,會讓寫作變得簡單。背後的精神是可重製文件(reproducible documents) 或動態文件(dynamic documents) 的製作與流通,製作這些優美東西的就是Markdown 文本,透過Markdown,我們可以輸出多種格式,如:MS-Word、PDF 和HTML。如果要直接發布一篇和數據分析有關的網誌,Markdown 的blogdown 可以直接完成並發布在指定網站;如果要製作簡報,Markdown 可以製作精彩的PPT;如果要寫一本書或碩博士論文,bookdown 可以完美整合,並可以指定期刊格式、編輯文獻目錄和內文。
前言
Data Journalism 經常譯成資料新聞學,其實,就技術層次,這個詞更好的名稱是資料敘事學,畢竟,Journal 一詞更通用的意義是嚴謹且專業的出版物,或稱期刊,不一定指學術期刊。例如,英國《經濟學人》(The Economist) 的內容,對問題的描述必須輔佐專業且清晰的圖表;IMF 的World Economic Outlook 內容,除了專業學理,也有大量專業的統計圖與表來輔佐內容敘事。
本書目的是為資料敘事,也就是將資料圖表分析和寫作整合起來。因為一個好的圖表,會讓寫作變得簡單。背後的精神是可重製文件(reproducible documents) 或動態文件...
目錄
推薦序
前言
I. 傳遞資訊的視覺化技巧
第1 章 RStudio 與R
1.1 RStudio 裝置
1.2 變更四方面板
1.3 RStudio
第2 章 製作傳遞資訊的表格
2.1 套件 gt 的表格製作
2.2 色彩與符號的資源
2.3 套件 kableExtra 的表格製作
第3 章 製作傳遞統計資訊的圖
3.1 資料的統計性質
3.2 Base R 的繪圖函數 plot()
3.3 三維立體繪圖
3.4 Imaging Correlation 相關性影像圖
3.5 Multiway 多向式繪圖—套件lattice
3.6 ggplot2 簡介
3.7 統計分析視覺化
第4 章 地圖
4.1 具有空間意義的資料集
4.2 套件maps 的進一步內容
4.3 套件geodata::gadm
4.4 擷取衛星地圖
II. R Markdown 的動態文件製作
第5 章 用R Markdown 寫報告或論文
5.1 開啟R Markdown
5.2 程式嵌入文本
5.3 插入數學符號與方程式
5.4 其餘編輯功能
5.5 一個R Markdown 到Word 的樣式建立
第6 章 其他
6.1 R Markdown 簡報
6.2 用R Markdown 寫一本書
推薦序
前言
I. 傳遞資訊的視覺化技巧
第1 章 RStudio 與R
1.1 RStudio 裝置
1.2 變更四方面板
1.3 RStudio
第2 章 製作傳遞資訊的表格
2.1 套件 gt 的表格製作
2.2 色彩與符號的資源
2.3 套件 kableExtra 的表格製作
第3 章 製作傳遞統計資訊的圖
3.1 資料的統計性質
3.2 Base R 的繪圖函數 plot()
3.3 三維立體繪圖
3.4 Imaging Correlation 相關性影像圖
3.5 Multiway 多向式繪圖—套件lattice
3.6 ggplot2 簡介
3.7 統計分析視覺化
第4 章 地圖
4.1 具有空間意義的資料集
4.2 套件maps 的進...