序
數位科技席捲世界帶來了大數據浪潮,但是,這三個字其實有一些誤導,讓一般人以為「大就是美」。其實在商管領域,大數據就是以證據為基礎的決策分析。更精準地說,「大」不是指用 4V 來描述的資料庫特徵,而是因為數據科技 (Data Technology) 進步,對多樣資料的「大用」。
在物聯網技術突飛猛進之下,數據量不可否認地遠遠大於以前。目前平常分析的資料表動輒「萬列千行」,因此如何從這些資料結構中提取資訊,「統計學 (Statistics)」和「資料探勘 (Data Mining)」就是關鍵技術。然而,我們不是為了大數據而大數據,大數據乃至人工智慧,都是為了支援決策。簡單地說,數據解析產生「預測」,預測解讀產生「決策」。數據解析的原理也只有兩個原則:「排序和分類」,所以一言以蔽之:「以排序來分類,從預測到決策」,就是大數據解析的核心。據此,本書副書名為「我分類,故我在」。
妥善的分類就可以產生可靠的預測,但是,當資料結構複雜時,排序乃至分類就沒有那麼簡單,所以需要利用演算法來處理資料,本書就是依此而生。例如:由分類的角度學習統計,統計學的預測以樣本期望值或條件期望值為基準,據之將資料劃分信賴區間,分類成「內 vs. 外」兩群,重點將不再是參數估計的顯著程度,而是預測表現和誤差分析。
全書分成 10 講,為筆者以大數據為名行走江湖的結晶,書中某些部分為在臺師大 EMBA 講授「大數據決策分析」的教材。每一講開頭皆以一個特定企業應用大數據的決策故事為開場,希望讀者能夠覺得不枯燥,同時也了解大數據的決策端,相當實戰且關鍵,沒有預測,都是紙上談兵。每講結尾都附上一個數據決策思考的方塊,從問對問題開始,一路引導至最後一英里路。案例用 R 語言的 GUI 和程式碼實作,但是,程式語言不是重點,而是對所預測對象的行為,有深刻的認識,勿忘 Domain Knowledge。
國立臺灣師範大學全球經營與策略研究所
何宗武
推薦序
比爾蓋茲曾說:「蒐集、管理和使用資料的方式,決定了輸贏!」科學家們則說:「繼蒸汽、電力、石油之後,下一次工業革命的生產要素是『資料』!」特別是人工智慧的發展,需要大量的數據,於是,資料科學就成為未來非常重要的一個領域。
如何把「資料」變成「資訊」,是資料科學的重大課題,過往台灣廠商在電腦硬體上表現得很好,生產的電腦及各種資訊終端,蒐集了大量的資料,也處理了大量的資料,但如果我們在如何運用資料上缺席了,在下一波的競逐中,就會愈來愈落後。
幸好台灣還有一些資料科學家,看到這樣的現象,不斷地寫文章、寫書,把畢生所學,毫無保留地介紹給大家,希望能夠結合更多的有識之士,讓台灣在硬體奇蹟之後,再創另一個高峰。
何宗武老師就是一位這樣的資料科學家。
何老師令人感佩之處在於,他長期在資料科學領域耕耘,明知道這是趨勢,但卻從來不趕流行,反而紮紮實實,一步一腳印地深耕於資料科學領域。他說,大數據不是口號,是思維,是內化為個人與企業決策的一部分,這些年來,他不斷地寫作出書,帶領著我們這些資料科學的門外漢,一步一步地走進這個新的殿堂。
在大數據、人工智慧等口號響徹雲霄之際,何老師大道至簡,從根柢說起,寫出了《大數據決策分析—盲點大突破 10 講》這本新書,在書裡,老師搭配 R 語言相關套件,從最基礎的平均數與變異數、時間序列、期望值與信賴區間和線性迴歸,由淺入深,一路介紹到集群分析、決策樹及隨機森林。就像是一本大數據乾坤大挪移的武功祕笈,陪著我們一層一層地修練,最終可以把數據化為決策。
這幾年來,我服務的公司嘉實資訊,從金融資訊供應商往交易決策平台的方向前進,我們試著透過程式語法,從龐雜的金融數據中,找到高機率不斷發生,且極可能瞬間即逝的交易機會。這當中,資料科學就像是習武之人必須不斷累積的內力,只有雄厚的內力,才能確保在尋找聖盃的道路上,不會走火入魔。
何老師的這本書,來得正是時候,可以讓有志於從事量化交易的朋友,帶著正確的觀念,處理金融相關的數據,很榮幸可以幫我這位優秀的學弟介紹這本書,一切,就從學會分類做起吧!
嘉實資訊總經理
李政霖 2018/07