「文字探勘」與「社群媒體大數據」一拍即合
網路爬蟲、機器演算、議題追蹤、品牌分析
快速上手玩轉社群
從茫茫網路文章中 點字成金
解讀風向、順勢而為!
洞察關鍵、贏得先機!
-----
◎全圖解:從工具安裝、程式架構與社群資訊解讀,藉由圖型呈現快速理解。
◎快速上手:全書採開放原始碼工具,程式碼分享,輕鬆複製執行,快速打造屬於自己的探勘工具。
◎多範例:列舉不同議題的社群分析案例,教導讀者寫出有價值觀點的深入報告。完整解析有效利用社群大數據的技術,拯救千萬小編於水火之中!
◎免費實作:本書最大特色為隨書附贈14天免費使用eyeSocial社群輿情觀測平台,可實際演練,了解如何將社群媒體大數據,從數據蒐集到商業應用一次搞定。
本書適合
‧聽過網路輿情分析或社群聆聽新名詞,對實際用途一知半解的你
‧得無時無刻關心網路爆點,或者監測負面消息的你
‧對文字大數據與資料分析科學有濃厚興趣的你
‧嘗試運用機器學習從大量文本中找出潛在規則的你
‧有專業領域感知力卻缺乏社群數據支持研究的你
作者簡介:
謝邦昌
現職
臺北醫學大學管理學院院長
臺北醫學大學大數據研究中心主任
臺北醫學大學生物科技高階管理碩士在職專班教授
臺北市政府市政顧問
學歷
國立臺灣大學農藝所生物統計組博士
主要經歷
輔仁大學統計資訊學系暨研究所教授
輔仁大學進修成長學院院長
輔仁大學總務長
輔仁大學創新育成中心主任
輔仁大學管理學院商學研究所博士班所長
臺北醫學大學醫務管理學系暨研究所教授
臺北醫學大學大數據研究中心主任
臺北醫學大學管理學院副院長
謝邦彥
學歷
北京市首都經濟貿易大學統計博士
現任
美商IEG創新學院深圳總經理
中華資料採礦協會秘書長
中華粹智(TRIZ)創新學會理事
目前為ETtoday東森新聞雲及中國時報專欄作家,發表過應用大數據結合各產業的文章,如:市調業的革新,驅動未來的產品研發,社群經營的戰略等。
經歷
曾任英華達股份有限公司、鴻海精密工業股份有限公司、昇陽光電科技股份有限公司等公司品質主管及六標準差大黑帶。
曾輔導兩岸各領域企業,創造上億元的財務績效。客戶領域包括:電子及資訊產品相關產業、太陽光電相關產業、面板產業、化工產業及汽車產業等。服務業領域包含量販店及連鎖酒店、通路商、FMCG等。專業領域為產品創新及技術創新、大數據在各產業的應用。。
鄭宇庭
學歷
美國明尼蘇達大學統計學博士
現職
國立政治大學統計學系副教授
專長
抽樣方法、多變量分析、資料採礦、商業智慧、大數據商業化策略
任教科目
商業智慧、巨量資料分析、多變輛分析、統計諮詢、抽樣方法
經歷
司法院資料採礦研討會委員
中華資料採礦協會常務理事
中華市場研究協會副理事長
政治大學選舉研究中心兼任委員
政治大學資料採礦中心主任
政治大學商學院民意與市場調查中心主任
政治大學商學院大數據實驗室執行長
硬是愛數據
本公司專注於數據應用的解決方案,團隊組成涵蓋資料工程
、數據演算、前後端架設等領域,致力於處理龐大數據及轉化複雜邏輯、打造易讀、好上手的一站式數據視覺平台,讓您輕鬆使用是我們的成就。公司網址:http://insighteye.com.tw
章節試閱
1.1 社群媒體大數據
大數據在今天已經無處不在,數據成為大量、高速度和高價值的資產,需要有效益的形式來處理數據,提升資料洞察力和決策力。感測器、網路文章、電子郵件、網路點擊、供應鏈訊息,數據正淹沒到每一個業務中,擁有最具效率流程來分流洪水般數據的企業,才有機會爆發性成長。數據不僅僅是大型企業的問題,中小型企業也越來越多透過數位管道與客戶互動,同樣擁有網站、數據庫等複雜資料內容。
許多學者對「大數據」的定義有「數據集的大小超出了傳統數據庫儲存,管理和分析的能力」、「必須使用機器學習演算」等等都有著不同的詮釋,但可以確定的是「數據」不斷在進化,而4V以大量性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)等面向,成為描述大數據的共同框架。在資料多樣性中,普遍易於使用的結構化數據僅占15~20%,這意味著80% 的數據都是非結構化,如果企業僅分析其數據的20%,那麼可以期待分析非結構化數據,有巨大的商業價值等著被挖掘。
網路時代的社群興起,加上行動上網便利性,幾乎上網查資料、閱讀別人的心得評論、聊天互動已經是生活的日常習慣,現在想買個3C商品、看電影、選餐廳都離不開先到社群中逛逛看別人的分享經驗,我們在社群中的對話都成為非結構化資料的主要來源,而且數據相當驚人:
•Google 每月要處理超過1萬億次搜尋。
•Twitter 每天有超過5億個推文。
•Facebook 每月活躍使用者直逼20億用戶的狀態更新。
包含臉書、論壇、部落格、電子郵件和產品評論網站等非結構化內容,不僅數量龐大、來源眾多,而且格式複雜,無時無刻都有網路住民在生產數據,這些蘊含各種寶貴聲音的資料,都可以稱為社群媒體大數據。對於這些內容,我們通常想知道得更多,例如:從客戶服務交易的語音記錄中反應哪些資訊?網路新聞或推文該如何解讀?產品評論、開箱文中可以得到消費者的觀感?或者撥出視頻時引起的討論話題?
在過去要得到這些答案,當然您可以選擇逐一讀完所有的推文和評論,然後手動記錄其中的特徵轉換成結構化數據,這聽起來不是很有效率的作法。多數人會採取的模式只是稍微瀏覽他們的Facebook 頁面的留言,或者讀讀幾篇google 搜尋首頁的文章,試圖得到一個氛圍或主觀見解。不然透過問卷調查的方式,取樣推估多數人的意見,而忽略了非結構化數據的潛藏價值,反觀在社群媒體大數據,不僅有網民即時性的發言,在社群上各種意見毫無保留的表達,既真實又有取之不盡的題材,這聽起很棒,卻仍無法普及使用,因為分析社群數據不是件簡單的事。非結構化數據的文本挑戰,碰上大數據的解決方案正是文字探勘,也稱為文本分析或自然語言處理,文本分析是將非結構化文本轉換為結構化數據的科學。
1.2 文字探勘與社群媒體大數據一拍即合
隨著各種社群媒體服務產生的大量數據,文字探勘提供了一種滿足不同訊息需求的有效途徑。社群媒體如Facebook、PTT、論壇和自媒體網站越來越多,用戶隨時發出突發性新聞,引起網路參與和連接,而文本分析的重點就是從對話中提取關鍵的訊息以及內容語氣。
文本分析在社群媒體大數據的商業價值,協助各個領域的需求者能夠聽取所有的對話,將對話的情緒從非結構化數據轉換為結構化數據,這樣就可以併入企業現有的大數據商業智慧的分析之中,產生更多元的綜效。文字探勘在社群媒體大數據的時代,碰撞出新的解決方案「社群輿情分析」,也可以稱為「社群聆聽」(social listening)。
多數人開始認識社群媒體大數據,可能從政治話題及公共議題最容易接觸到,經歷過太陽花學運以及六都市長選舉,網軍開始受到各方重視,當網軍對某些議題形成共同看法時,引起的意見群聚效應很可能成為主流民意,加上眾多的社群網站提供發表言論以及訊息交換的平台,所以看風向、預測「社群輿情」走向逐漸成為顯學。
完整的社群聆聽系統可以作為用戶社群媒體監控的工具,將社群媒體和客戶聲音融合,聽取線上體驗分享或者與客戶對話,提升客戶關係管理。一些案例,如:品牌管理,品牌經常贊助活動像奧運、足球聯賽、馬拉松賽或慈善活動,如果品牌贊助的活動管理不善,本來要提升形象或推廣的目的,反而招來更多的非議,除非企業正在聆聽活動中的網路對話,否則可能不知道消極情緒正在醞釀,也可能不了解導致銷售下降的原因。如飯店、渡假村和餐廳的客戶回饋,多數都抒發在網路上,業者多數以人工尋找及解讀片面對話,若透過社群聆聽系統,可以更快速評估應該在哪些方面需要改善;也可用於了解客戶的喜好和動機,調整忠誠激勵計畫提高回購率、樂於對朋友分享。
文本分析的技術已趨於成熟,不同規模的企業都可以透過社群聆聽網路對話,挖掘商業價值性。從國際大廠的動作,足以顯示了文本分析的重要性。例如:IBM 收購深度學習技術的業者AlchemyAPI,其深度學習平台可協助進階資料分析的認知能力,包含分類、關鍵字萃取、情感分析與網頁清理,整合進Watson 核心平台,擴大分析面向。另外,微軟收購了以色列文本分析公司Equivio 專注在eDiscovery 的文本分析公司,開發的演算法對大量文本進行歸類分析,適用於郵件、社群網路或者法律事務等文本內容。
既然分析社群媒體大數據可以讓我們從社群中取得主動性,而不是對發生的事情互動聾啞。那可以開始怎麼做呢?本書主要目的就是讓對於社群輿情分析有興趣的入門者,經由筆者所述的文本資料處理程序,以及介紹不同的探勘分析方式,輕鬆上手文本分析,接著操作社群聆聽平台,實際體驗這一類型的工具可以帶來什麼樣的價值資訊,最後將以案例闡述如何解讀社群,如何運用! 讓讀者懂得挖掘出更意想不到的商業價值。
1.1 社群媒體大數據
大數據在今天已經無處不在,數據成為大量、高速度和高價值的資產,需要有效益的形式來處理數據,提升資料洞察力和決策力。感測器、網路文章、電子郵件、網路點擊、供應鏈訊息,數據正淹沒到每一個業務中,擁有最具效率流程來分流洪水般數據的企業,才有機會爆發性成長。數據不僅僅是大型企業的問題,中小型企業也越來越多透過數位管道與客戶互動,同樣擁有網站、數據庫等複雜資料內容。
許多學者對「大數據」的定義有「數據集的大小超出了傳統數據庫儲存,管理和分析的能力」、「必須使用機器學習演算」等等都有著...
目錄
第1章 緒論
1.1 社群媒體大數據
1.2 文字探勘與社群媒體大數據一拍即合
第2章 文本分析概念
2.1 文本資料取得
2.2 文本分析程序
第3章 網路文本資料爬蟲
3.1 Python簡介
3.2 整合開發環境
3.3 Python網路爬蟲9
第4章 文字資料預處理
4.1 編碼處理
4.2 建立詞庫
4.3 斷詞處理
4.4 分析語料庫
4.5 正則表達式
第5章 文字探勘分析
5.1 詞頻統計
5.2 文本—字詞矩陣(DTM)
5.3 關鍵字萃取
5.4 關聯分析
5.5 文本集群分析
5.6 主成分分析
5.7 word2vec 詞項聚類
第6章 社群輿情大數據
6.1 什麼是社群輿情
6.2 聆聽社群輿情重要嗎
6.3 社群聆聽有什麼幫助
第7章 社群聆聽平台介紹
7.1 關於eyeSocial
7.2 eyeSocial可以做什麼
7.3 eyeSocial進入操作
7.4 議題追蹤操作說明
7.5 品牌分析操作說明
第8章 社群分析應用案例
8.1 公共議題探討:「前瞻計畫」事件簿
8.2 社會公共案例:流浪狗議題
8.3 輿情剖析案例分享
第1章 緒論
1.1 社群媒體大數據
1.2 文字探勘與社群媒體大數據一拍即合
第2章 文本分析概念
2.1 文本資料取得
2.2 文本分析程序
第3章 網路文本資料爬蟲
3.1 Python簡介
3.2 整合開發環境
3.3 Python網路爬蟲9
第4章 文字資料預處理
4.1 編碼處理
4.2 建立詞庫
4.3 斷詞處理
4.4 分析語料庫
4.5 正則表達式
第5章 文字探勘分析
5.1 詞頻統計
5.2 文本—字詞矩陣(DTM)
5.3 關鍵字萃取
5.4 關聯分析
5.5 文本集群分析
5.6 主成分分析
5.7 w...