資料庫系統全面攻略/大數據分析深化掌握
‧舉列實際案例循序引導,運用實作培養資料庫概念、核心與架構。
‧詳盡說明資料分析、倉儲、探勘、應用等多方位課題。
‧常用套件、知名套件之介紹、撰寫說明與範例示現。
以資料庫系統實作為主軸,築實基礎並深入大數據應用與未來趨勢
作者精心彙整大數據分析工作所需之理論知識、系統開發技術、程式撰寫與建立模型等實務經驗,以資料庫實作為主軸導向大數據應用與未來趨勢。
由資料分析、資料倉儲到資料探勘,延展至資料應用,皆備周詳說明及予精闢釋例,讓讀者一目了然,於觀念結構建立上能更有效率的精準掌握;所舉列之重點案例更加讓讀者透過案例分析,而能對資料庫概念建置更深層的體認與領會。
本書對有志成為資料科學家的初學者而言,絕對是一本最好的入門書籍。
------------------------------------------------------------------------------
CH1、CH2、CH3、CH5:主要介紹關聯式資料庫中進階技巧,以檢視表為開端,接續單元介紹索引技術、交易管理和可程式性物件,讓讀者建立在處理大量結構化資料時能更有效率的觀念與基礎。
CH4:介紹 ADO.NET資料庫程式設計,讓讀者從無到有建置一個小型資訊系統專案,建立對於資訊系統開發之認識,以及提升程式撰寫的能力。
CH6:介紹資料倉儲與資料探勘,對於監督式學習或非監督式學習相關知識有一定程度的了解。
CH7:介紹SQL Server 2016版才有的新功能,也是微軟致力於大數據分析的解決方案,主要提供資料科學家能夠透過原先所熟悉的R語言,不論是在交談式介面中透過SQL Server R Services直接撰寫R腳本指令進行資料分析,或是在Visual Studio.NET中透過R Tools for Visual Studio或Microsoft R Client的安裝,在原有Visual Studio開發環境撰寫R指令從事各種機器學習,進行關聯、分類、集群和預測的工作。
※CD/本書範例檔案
1.Microsoft SQL Server 2016 範例資料庫
2.SQLServer2016
作者簡介:
李紹綸
學歷:淡江大學資訊工程學系博士
現職:亞東技術學院資訊管理系副教授兼系主任
中華資料採礦協會常務理事
經歷:亞東技術學院電算中心主任
中華資料採礦協會理事
亞東技術學院資訊管理系系主任
國立台北商業技術學院資訊管理系兼任助理教授
安佳資訊股份有限公司專案經理
經濟部資訊專業人員鑑定計劃命(審)題委員—94年資料庫管理
專長:資料庫系統、資料倉儲、資料探勘、大數據
Email:sllee@mail.oit.edu.tw
推薦序
大數據時代導讀
不論資訊科技如何演進,從大型主機(Mainframe)、主從式(Client-Server)、三階層(Three-tier)架構,乃至於現今大眾耳熟能詳的雲端運算、行動APP、社群媒體、物聯網等應用模式,亙古不變的是「資料」依舊成為企業營運的核心命脈,畢竟沒資料就沒價值(No data, no value)。隨著雲端運算盛行,Hadoop框架中的HDFS(Hadoop Distributed File System)讓大量資料得以分散式儲存、MapReduce則是讓大量資料得以分散式計算,藉由大量儲存和快速運算等兩大特性,讓大數據分析得以實現。平心而論,大數據並不是一個新議題,經過這些年各大媒體爭相報導,企業也逐漸從模糊的概念、爭相理解,到最後認同大數據的實用價值,思慮如何導入應用,冀望能輔助公司決策更加精準。
這些年來大多數企業也都學會如何利用「資料」來創造「價值」,這些企業透過線上分析處理(On-Line Analytical Processing,OLAP)或是資料探勘(Data Mining)等技術,將平常賴以為生的 ERP、SCM或CRM等各式各樣資料庫系統所衍生的大量資料加以分析,取得有助於未來營運方向的決策數據。近年來,除了將企業內部關聯式資料庫中各個資料表等結構化資料的進行分析之外,許多企業更將資料分析的觸角延伸到企業外部諸如:電子報新聞報導、社群網站留言和回文、物聯網感測器紀錄,冀望藉由文字探勘(Text Mining)技術,將這些非結構化資料加以分析,嘗試創造出新的價值,以面對這瞬息萬變的廣大市場,大數據分析儼然成為企業成功致勝的秘密武器。
然而,企業往往礙於資源不足,或因工具不完善,抑或專業人才不足,導致相關應用推動不順。大數據之所以難為,因為一方面需動用眾多伺服器進行大量運算,對企業而言可謂一筆財務負擔。再者,企業想做好大數據分析,需要延攬資料科學家或資料分析人才,建構許多資料模型,或針對諸多工具進行設定,對結果進行解讀,無論從管理角度、技能門檻而言都非常高,成為企業難以跨越之鴻溝,亦是無法將大數據應用普及化的主要原因。
話雖如此,少數人對於大數據依然存在些許錯誤迷思,誤認為從事大數據分析,就需要建構所費不貲的Hadoop系統,殊不知台灣大多數企業的資料量只有幾TB到數10TB,這樣的資料量在Hadoop技術下根本無法發揮其價值,因為 Hadoop要管理多伺服器節點並將資料從記憶體移動至資料庫造成的啟動延遲,可能會比一般的資料處理方案更慢。誠如專業財經媒體Bloomberg負責人Matt Hunt指出:「在Bloomberg我們並沒有大數據問題,反而是有中量數據(medium data)問題,這裡指的中量數據指的是量夠大、但適用於單一設備上,但並不需要龐大巨量的集群數據,相當於TB,而不需要達PB等級」。的確,殺雞焉須用牛刀,特別是台灣的社群媒體沒那麼發達,資料大多不在自己手上,與其盲目追求技術和工具,不如先用小量資料去驗證一個模型,是否能將資料轉換成商機利潤,再來決定要不要建置大數據的作業環境。
近年來,筆者曾參與一些政府部門、私人企業大數據應用專案開發,發覺大部分專案也都不是在Hadoop上執行,反而大部分工作都是透過本書所介紹的章節內容完成,例如:在經濟部資料應用分析專案中,是利用R語言結合PHP網頁程式設計,建置一套太陽能發電選址模型,將最近三年全省和離島共24個太陽能電廠年每10分鐘智慧電表所量測到的日照量和發電量資料,進行建模和預測。過程中有些有關發電量遺缺值的資料預處理部分,便是透過5.3.3小節所介紹的SQL Server流程控制語言,利用SQL指令迴圈和判斷式撰寫「內差法」填補有日照量卻無發電量的遺缺值,快速處理數百萬筆的日照量和發電量資料,並且透過7.3.6節所介紹的R語言stats套件中的arima模型,進行日照量和發電量的預測。
在行政院主計總處主計資料大數據分析研究案中,則是利用C#結合SQL Server資料庫,建置一套跨機關去識別化資料整合模型,將每五年辦理一次的工業及服務業普查、農林漁牧業普查,或是每十年辦理一次的人口及住宅普查,各縣市政府主計單位將調查後的資料先進行去識別化後,再交付國勢普查處進行去識別化資料整合。去識別化資料整合工具的開發是以4.1小節所介紹的ADO.NET觀念和4.2小節資料庫系統範例專案方式實作出來的,此工具可能會面臨處理2300萬筆人口普查這類等級的資料量,將其身分證號碼這個主鍵,透過加密方式一一去識別化,或去除其他欄位的間接識別,所以在開發過程中又得透過第3章交易管理的觀念,將多個SQL指令視為同一筆交易執行,並且透過2.9小節建立索引,加入多執行緒方式來提升去識別化的執行效能。
有鑑於此,筆者將這些年從事大數據分析工作可能會用到的理論知識、系統開發,程式撰寫,建立模型的經驗整理成冊,希望對於想要踏入大數據分析這個領域的讀者有所助益。書中第一、二、三、五章主要介紹關聯式資料庫中進階技巧,以檢視表為開端,接續單元介紹索引技術、交易管理和可程式性物件,這些章節內容與觀念可以讓我們處理大量結構化資料時更有效率,第四章則是介紹ADO.NET資料庫程式設計,讓讀者從無到有建置一個小型資訊系統專案,相信對於資訊系統開發有一定認識、對於程式撰寫能力也會提升,第六章介紹資料倉儲與資料探勘,對於監督式學習或非監督式學習相關知識有一定程度的了解。最後第七章則是介紹SQL Server 2016版才有的新功能,也是微軟致力於大數據分析的解決方案,主要提供資料科學家能夠透過原先所熟悉的R語言,不論是在交談式介面中透過SQL Server R Services直接撰寫R腳本指令進行資料分析,或是在Visual Studio.NET中透過R Tools for Visual Studio或Microsoft R Client的安裝,在原有Visual Studio開發環境撰寫R指令從事各種機器學習,進行關聯、分類、集群和預測的工作。書中除了介紹一些常用和知名套件如何撰寫,例如:如何利用wordcloud套件繪製文字雲、Arules套件apriori進行關聯規則分析、stats套件kmeans進行集群分析、C50套件C5.0進行決策樹分析、stats套件glm和RevoScaleR套件rxLogit進行羅吉斯迴歸分析。更重要的是對於這些模型如何使用、和對跑出的結果如何進行解讀,都有非常完整的介紹,相信對於有志成為資料科學家的初學者而言,本書絕對是一本很好的入門書籍。
大數據時代導讀
不論資訊科技如何演進,從大型主機(Mainframe)、主從式(Client-Server)、三階層(Three-tier)架構,乃至於現今大眾耳熟能詳的雲端運算、行動APP、社群媒體、物聯網等應用模式,亙古不變的是「資料」依舊成為企業營運的核心命脈,畢竟沒資料就沒價值(No data, no value)。隨著雲端運算盛行,Hadoop框架中的HDFS(Hadoop Distributed File System)讓大量資料得以分散式儲存、MapReduce則是讓大量資料得以分散式計算,藉由大量儲存和快速運算等兩大特性,讓大數據分析得以實現。平心而論,大數據並不是一個新議題,經...
目錄
Chapter 0 大數據時代導讀
Chapter 1 視界
1.1 視界的優點
1.2 視界的缺點
1.3 視界的種類
1.4 使用「Management Studio」建立檢視表
1.5 使用「Management Studio」修改檢視表
1.6 使用「Management Studio」刪除檢視表
1.7 使用「T-SQL 指令」建立檢視表
1.8 使用「T-SQL 指令」修改檢視表
1.9 使用「T-SQL 指令」編輯檢視表的資料
1.10 使用「T-SQL 指令」刪除檢視表
1.11 習題
Chapter 2 索引
2.1 主索引
2.2 叢集索引
2.3 次索引
2.4 多層索引
2.5 密集索引和稀疏索引
2.6 使用「Management Studio」建立索引
2.7 使用「Management Studio」修改索引
2.8 使用「Management Studio」刪除索引
2.9 使用「T-SQL 指令」建立索引
2.10 使用「T-SQL 指令」修改索引
2.11 使用「T-SQL 指令」刪除索引
2.12 習題
Chapter 3 交易管理和並行控制
3.1 交易管理
3.2 為何需要並行控制
3.3 排程的循序性
3.4 並行控制的方法
3.5 使用「T-SQL 指令」執行交易
3.6 習題
Chapter 4 VB.NET 2015 資料庫系統實作
4.1 ADO.NET簡介
4.2 建立資料庫系統專案
4.3 習題
Chapter 5 SQL Server 可程式性物件
5.1 規則物件
5.2 預設值物件
5.3 預存程序物件
5.4 觸發程序物件
5.5 習題
Chapter 6 資料倉儲與資料探勘
6.1 資料倉儲簡介
6.2 資料探勘簡介
6.3 習題
Chapter 7 大數據分析與應用
7.1 大數據簡介
7.2 SQL Server R Services
7.3 R Tools for Visual Studio
7.4 Microsoft R Client
7.5 習題
Chapter 0 大數據時代導讀
Chapter 1 視界
1.1 視界的優點
1.2 視界的缺點
1.3 視界的種類
1.4 使用「Management Studio」建立檢視表
1.5 使用「Management Studio」修改檢視表
1.6 使用「Management Studio」刪除檢視表
1.7 使用「T-SQL 指令」建立檢視表
1.8 使用「T-SQL 指令」修改檢視表
1.9 使用「T-SQL 指令」編輯檢視表的資料
1.10 使用「T-SQL 指令」刪除檢視表
1.11 習題
Chapter 2 索引
2.1 主索引
2.2 叢集索引
2.3 次索引
2.4 多層索引
2.5 密集索引和稀疏索引
2.6 使用「Management Studio」建立索引
2....