前 言
隨著資通訊科技技術的進步,各種新型態的應用方式不斷出現,如行動網路、物聯網、社群網站以及電子商務等,巨量資料因應而生。美國MIT教授Erik Brynjolfsson在詮釋大數據的重要性時表示:四個世紀之前,顯微鏡的發明可讓人看見及測量以前無法看到的細胞,這是測量的革命。如今,大數據測量相當於顯微鏡的現代版,可以讓我們精密地測量社群網站使用者的行為及情緒。顯示大數據的出現,讓政府效能與產業經營產生翻轉性的改變。
各國政府目前都致力於推動大數據的相關應用,例如美國已經開始整合各政府部門強化推廣。歐盟則是以補貼的方式,鼓勵各領域提出相關計畫。英國是針對人才、基礎建設和政府三大面向切入,強化數據處理能力。日本則是由總務省主導,將大數據定位為國家戰略。南韓希望充分發揮ICT的技術,在大數據應用上展現優勢。我國現階段由政府帶頭做起,也鼓勵企業投入大數據的技術研發。
至於在創新應用上,大型網路公司很早就開始使用大數據。Google積極蒐集各種數據做為提出整合服務內容的依據。Amazon則是用大數據來強化消費者體驗。Facebook本身就擁有關於使用者的大量數據,因此可用來提升精準行銷的效果。大數據未來遇到的挑戰包括:數據可能隱含的偏見、資料來源或內容的不確定性以及使用者的隱私權等問題。
本章的重點主要在描述大數據的定義、大數據的市場發展及各國推展現狀以及創新運用,最後再提出大數據應用在未來所面臨的可能挑戰。
第一節 大數據的定義
大數據(Big data)亦有人稱之為「巨量資料」,這幾年不只變成時髦的代名詞,也成為顯學。大數據的名詞第一次正式出現,是在1997年由美國國家航空暨太空總署(NASA)的科學家所撰寫的報告。該篇文章描述電腦圖表的視覺化帶來的挑戰,例如當電腦資料非常大量時,將考驗電腦的主要記憶體容量、近端與遠端的硬碟,他們稱此為「大數據的問題」(The problem of big data)(Friedman, October 8, 2012)。2008年,一些有名的美國電腦學家讓「大數據」變成通用常見的名詞(Press, May 9, 2013)。牛津辭典對大數據的定義是「大量的資訊,其運用與管理帶來重大邏輯的挑戰」。著名的管理諮詢公司麥肯錫(McKinsey)在2011年將大數據定義為「巨量資料大到無法用一般的資訊軟體蒐集、儲存、管理及分析」。目前一般對於巨量資料(Big Data)的定義,是指量大、複雜且超過一般軟體技術所能處理的資料(資策會,2014a)。
Mayer-Schönberger與Cukier(2013)針對大數據的定義則批評,到目前為止,大數據並沒有嚴謹及精確的定義。儘管如此,兩位作者指出:「現今龐大、多元且複雜的資訊量,利用大數據快速且系統性分析,能夠達成以往小量資料無法達成的資訊規模,為既有市場、組織、民眾與政府關係等社會中各範疇創造價值」。John(2013)認為在資料數量及類型急速增加的趨勢下,需透過新科技系統化分析、儲存以及解讀資訊,大數據應用趨勢也就因應而生。Sherman(2014)也強調,過去傳統的資料庫演算系統無法負荷目前極大量且複雜的資訊量,而大數據應用可有效率分析極為龐大的資訊量,並將其轉化為可解讀的圖表或數據結果。
大數據能幫助業者及政府公部門分析其所擁有的資料,將巨量資料轉化為商業生產力或國家競爭力。各個產業都需要新的演算法和新的工具來處理所有的數據。一般而言,大數據資料的主要特色多半由3V來解釋,分別為巨量性(Volume)、多樣性(Variety)、快速性(Velocity),但也有人陸續加入了準確性(Veracity)、有效性(validity)及短暫性(volatility)(Normandeau, 2013):
1. 巨量性(Volume):Mayer-Schönberger與Cukier(2013)指出,因資訊與網路科技蓬勃發展,過去兩年來,人類創造的數據總量占過去總和的90%,預估2020年數據總量將比2010年大50倍。隨著網路及資訊科技的廣泛使用,每日由機器、網路、人與人之間的社群互動所累積的龐大數據,很容易就能達到數 TB(Tera Bytes,兆位元組),甚至到 PB(Peta Bytes,千兆位元組)或 EB(Exabytes,百萬兆位元組)的等級(Yahoo奇摩,2015)。
2. 多樣性(Variety):大數據資料種類可橫跨數據、語音以及影音等各形式,而資料儲存方式包含結構式、半結構式與非結構式等,業者可依其產業需求去擷取所需資料(Bowden, 2014)。業者須整合不同來源及類型極為複雜的資料,相對而言也考驗業者的資料處理能力。
3. 快速性(Velocity):業者可針對消費者每次點擊動作以及網路造訪紀錄進行快速分析,並可針對客戶需求或突發狀況即時處理。經過即時處理的資料有助業者快速做出對應決策以及從中獲取效益(Bowden, 2014)。
4. 準確性(Veracity):美國Express Scripts公司的首席數據主管Inderpal Bhander認為,除了前述的三個V之外,大數據的特質還可以包括準確性,原是指資料的準確性,而在大數據應用方面則被引申為資料的不確定性(uncertainty)風險。大數據雖具有巨量、多樣與快速等優勢,過於複雜的資訊可能提高判讀資訊之可用性與可信度的困難程度,且資料中可能夾雜不正確或是蓄意欺瞞的資訊,最後造成錯誤的數據分析結果(Normandeau, 2013)。
5. 有效性(Validity):在使用巨量資料時,也必須注意所蒐集到的資料是否正確或準確。因為有效的資料才可做出正確的決策(Normandeau, 2013)。
6. 短暫性(Volatility):大數據的資料有時是短暫的。在使用時要注意資料的有效期限及儲存多久。尤其在使用即時資料時,必須能夠分辨把不相關的資料剔除(Normandeau, 2013)。
大數據以及進階數據的利用,可以做為衡量服務供應者投資回報的利益。大數據分析不是用來取代傳統的分析架構,而是彌補其中的落差,以及建立巨量資料以提供更豐富的資訊(參見表1-1)。因此,資訊的需求和客製化可以做出更好的決策,或創建新的產品及應用程式,讓企業整體的發展能更好地服務使用者的需求。此一演變,將服務供應商在業務、網路以及IT等各自獨立的單位,進一步加以連結(Banerjee, 2013)。
不論資料的形式是「結構」(Structured)、「非結構」(Non-Structured)或是「半結構」(Semi-Structured),要從資料(Data)轉成有用的資訊,再變為有價值的情報,必需經過四個階段,包括資料的創造階段、蒐集階段、分析階段及商業化過程階段。大數據的產業價值鏈乃是從「蒐集」、「儲存」、「萃取」、「分析」到「決策」流程(資策會,2014a)。其影響的層面對一個公司的生產製造、行銷與市場競爭都很重要。電信、媒體、社群媒體、網路與物聯網也都需要仰賴大數據作精確的分析。有關大數據所能帶來的績效,根據Brynjolfsson與McAfee(2012)的調查發現,組織越是願意將數據分析應用在企業經營,在執行財務和營運目標上的表現就越好。特別是組織內的領導部門使用大數據做決策時,平均可比對手增加6%的生產力及5%的利潤。
因此大數據在經營管理上,可以協助企業掌握契機,同時解決營運上所遇到的問題,包括(PwC, 2013):
1. 消費者資料貨幣化(Customer data monetization):取得顧客全方位的資料是關鍵成功因素之一,讓企業能在當今快速發展的市場中有效地競爭,企業在經營上應該結合大數據採用和深入的分析,藉由買入消費者資料,機構可以整合外部非結構化數據(社群媒體和通信資料)成為傳統的內部結構化數據(付款、報表等)。
2. 交易和營運(Transactions and operations):過去,營運團隊往往難以處理即時、大量的數據;如今,投資管理者、銷售及服務團隊已經有能力評估市場走勢,預測銷售成績,並可以利用大數據創造新的商業模式,提供卓越的客戶服務。
3. 風險管理和規管報告(Risk management and regulatory reporting):日漸增加的全球規管風險和報告需求往往要求企業儲存長期的交易數據,並具備整理跨地區不同資料庫及科技平台的能力,因此,快速處理大量的結構化和非結構化數據非常重要。
大數據可廣泛影響文化、科技以及產業等多元面向。boyd與Crawford(2012)認為從科技應用來看,大數據技術將電腦運算能力以及精確程度發揮到極致,可系統化匯集、分析與比較極為龐大的資訊量。由於大數據技術提供較為客觀精確的數據結果,在現今得以觸及以往較難達成的知識領域。Jones(2012)認為大數據的巨量、多元與即時特性創造出資料可應用的最大價值,突破以往數據資料的規模限制,為人類文化、經濟及社會層面帶來全新資料價值認知。
根據研究機構BYTE在2014年所提出的報告指出,大數據在法律、經濟、社會、倫理和政治等方面,均產生了極大的影響。有關大數據的法律議題主要為智慧財產權,以及資料保護和隱私的風險。在經濟方面,大數據可以是創新的催化劑,特別是在新的商業模式需要納入發展策略時,但也可能帶來縮減勞動力的負面影響。在社會和倫理的議題,則如信任、歧視、使用的不平等、隱私、剝削和操弄等。在政治議題方面,大數據則圍繞著國家、企業和公民之間關係的變化(Donovan, Finn, & Wadhwa, 2014)。
然而大數據並非是解決所有問題的萬靈丹。Schenker(2013)就指出,大數據在使用上有其缺點,包括難以分析操作,不易達成最初設定目標。因為去識別化,往往無法辨識使用者,且企業大多未告知數據的來源。研究者如果只問利益為何,不問信息來源,數據也就只能提供有限的面向。
Mahrt與Scharkow(2013)也指出大數據研究的一些挑戰。首先,部分大數據研究仍是使用非隨機抽樣,例如使用滾雪球或只是一些簡單的技術所取得的數據;其次,儘管數據的來源是特定網站的大量樣本或完整的數據,但是該平台或網站的樣本仍缺乏變化性;第三,則是研究倫理以及使用公開或半公開數據的標準及程序的問題。利用技術可以把不可辨識化的資料還原成可辨識化,因此,對消費者的隱私沒有保障。另外,有關大數據的研究,只要消費者的個人資料不會被透露,一般會假設消費者不反對其個人資料被拿來分析。可是現在的技術可以再將一些隱匿的部份變成可識化,對消費者的隱私很沒保障。
從技術的角度而言,有業者開發了「深層封包檢測軟體」(deep packet inspection software, DPI),可以針對個人寬頻網路的封包資料加以檢測。在美國,曾經有ISP業者與DPI軟體業者合作,授權廣告行銷公司能夠存取ISP網路系統上的用戶資料,進而對其用戶投放廣告,此舉引發違反隱私的爭議(Augustino & Miller, 2013)。