本書分為以下八章:
第一章,導論。主要介紹選題背景、研究的意義、研究的思路和方法、全書的結構安排以及主要創新點。
第二章,文獻綜述。主要對社會化媒體量化、市場情緒和社會化媒體對證券市場波動影響三個方面的理論和文獻進行了系統的回顧和梳理。本章為研究社會化媒體量化、剖析社會化媒體信息與證券市場波動的關係和防範系統性金融風險研究提供強有力的支持和論證。
第三章,系統總體設計。從系統總體設計的角度,自上向下對本書的邏輯模塊和流程進行概述,對系統的數據處理流程進行說明,明確證券市場社會化媒體效應智能解決方案中模塊之間的關係,理順系統從數據抓取到文本信息處理情感提取,再到利用深度學習神經網路對社會化媒體與證券市場波動的影響進行關聯分析的流程。確保系統模塊完整和研究順利推進。
第四章,社會化媒體量化與投資者情緒提取研究。首先對社會化媒體信息的抓取、過濾、預處理和詞彙量化過程進行了描述;隨後提出依據中文語句的語法和語義結構構建中文語句卷積神經網路(CSCNN)核心算法對文本情感極性進行判定;接著對情感判定模型進行了比較研究。
第五章,投資者情緒指數的構造。借鑑傳統指數構造原理,利用社會化媒體平台文本信息結構特點,創新性地提出基於內容相似度矩陣、引用關係矩陣和回復關係矩陣的社會化媒體文本語句權重SentenceRrak算法計算語句權重,結合用戶影響力因子、閱讀數量因子和點讚數量因子,構造了社會化媒體投資者情緒指數(SMISI),為後續研究提供了重要的特徵變量。
第六章,SMISI對證券市場波動的量化研究。通過實證研究,首先將SMISI與Fama五因子模型結合,驗證了SMISI對證券市場收益率的系統性影響;接著利用VAR模型研究SMISI對證券市場波動影響的深度和廣度。隨後提出基於社會化媒體情緒驅動的S-LSTM深度神經網路模型核心算法,更加準確地捕捉社會化媒體投資者情緒對證券市場的影響效應,並通過模擬的方式驗證了SMISI在量化投資中應用的可行性。
第七章,面向證券市場策略的SMQIP檢驗與分析。從市場監管者、上市公司和投資者三個不同的角度剖析了社會化媒體信息引導市場情緒,導致證券市場資產價格波動,甚至影響金融穩定的內在機理。並利用具體案例從以上三個角度分別驗證了基於大數據的證券市場社會化媒體效應量化智能平台(SMQIP)的應用可行性。
第八章,總結、不足與研究展望,對全書進行了總結,對研究中存在的不足進行了分析和反思,對於金融智能領域的研究熱點和方向以及未來可能進行的研究計劃進行了展望。
本書的主要創新點包括以下三個方面:
創新點一:提出了一個基於深度學習的公眾情緒文本挖掘方法,綜合考慮文本內容和質量的影響,以捕捉社會化媒體中的公眾情緒。
創新點二:基於社會化媒體大數據,研究和優化了證券市場情緒指數的構建方法。在研究社會化媒體信息量化及其對證券市場波動的影響中,發現社會化媒體信息不僅對個股存在顯著影響,股票板塊指數也同樣會對社會化媒體信息中的情緒傾向有所反應。
創新點三:集成情緒判定、文本賦權和情緒指數市場效應評估等核心算法,構建了情緒對證券市場波動的影響分析的系統原型。
作者簡介:
謝志龍,西南財經大學經濟資訊工程學院教師。分別於2000年、2006年獲得西南財經大學理學學士、管理學碩士。現為西南財經大學在讀博士。2011年到2012年英國雪菲爾大學訪問學者。主持中央高校基本科研專案一項,參與教育部人文社科專案兩項。研究興趣包括金融智慧,大資料分析,資料採擷,人工智慧,機器學習,自然語言處理,深度神經網路,演算法交易等。
章節試閱
1導論
1.1選題背景和研究意義
1.1.1選題背景
自從1990年12月19日上海證券交易所和1991年7月3日深圳證券交易所先後正式開業,中國證券市場已經經歷了近30年的發展。至2017年年底,在滬、深交易所上市的公司數量達到了3485家,總市值達到567086.077億元。證券市場已經成為中國國民經濟不可分割的重要組成部分。中國未來的風險主要在金融領域,要防範金融風險。現在證券監管部門已經把監控作為了第一要務。證券市場是「國民經濟的晴雨表」,證券市場的穩定不僅僅是國家經濟健康發展的基石,同時在維護社會穩定,防範系統性金融風險方面也發揮著重要作用。
縱觀中國證券市場的發展,經歷過多次劇烈波動:1995年因暫停國債期貨交易產生的著名「5/18」短命井噴行情;1999年因網路概念而引起的牛市行情;因對股權分置改革預期而帶來的2001—2005年的熊市;2005年6月至2007年10月因股權分置改革引起的指數上揚;2008年3月在金融危機大背景下股指一路狂瀉;2009年在「4萬億元」經濟計劃刺激下的牛市行情;2010—2014年的盤整下跌;2014年年終至2015年年中因對改革紅利預期的反應,各項利好政策疊加催生的「改革牛」行情;2015年下半年由於二級市場高槓桿導致的「股災」。中國股市在短短28年間經歷了多次「牛」「熊」更替,其中主要的原因是投資者情緒過度樂觀或者過度恐慌、「追漲殺跌」「盲目跟風」「羊群效應」等造成了證券市場的大幅波動。
通常認為穩定的證券市場應該是證券價格圍繞企業的基本面信息和宏觀政策在一定範圍內較小地波動。經典經濟學和金融學的大部分模型都是建立在理性經濟人的假設上,也就是經濟行為的決策主體能夠理性地計算和判斷並做出對自己利益最佳的決定,從而實現自身效用的最大化。但是正如牛頓所說,「我能計算天體的運行軌跡,但對人心的瘋狂卻無能為力」。在證券市場中,投資者心中的恐懼與貪婪在風險和收益的博弈中被大幅放大,使得資本定價模型和有效市場理論等經典金融模型不能得到實證檢驗的支持。在中國證券市場上,由於個人投資者占比高,並且對於賣空存在較大限制,使得理性定價的力量更弱。傳統金融模型更加難以解釋證券市場上的波動。投資者情緒是研究證券市場波動時必須要考慮的重要因素。諾貝爾經濟學奬得主席勒在《非理性繁榮》中認為投資者情緒是推動20世紀90年代美國牛市的主要動力之一。而且經濟學家們也發現良好天氣或一些重大賽事勝利所帶來的樂觀情緒有助於股市上漲。根據東北證券2016年8月3日發布的報告,投資者情緒對於不同板塊的股價影響也存在著顯著的差別。安信證券報告指出,投資者的市場情緒會導致其對股票價格的認知出現偏差,進而對資產做出錯誤定價。中原證券通過時序全局主成分分析法構建了中原證券市場情緒指數。根據CCSI的分佈特性以及行為金融學的相關概念,CCSI被劃分為五個不同區域:極度樂觀、樂觀穩定、情緒緩和、悲觀穩定和極度悲觀。通過觀察CCSI與滬、深300指數階段性拐點之間的關係發現,CCSI進入極度情緒區域後投資者會表現出反轉效應,而情緒緩和區域則容易表現出一定的動量效應。從以上分析可以看出證券市場波動和市場情緒密切關聯。
市場情緒是各類投資者情緒的綜合體現,占中國證券市場絕大部分交易量的個人投資者(散戶)的情緒會對市場產生巨大影響,並且個人投資者相對於機構投資者來說情緒化交易行為更加普遍。現代行為金融學認為,股票價格不僅僅由股票的內在價值所決定,投資者心理與行為由於受到信息影響,其對股票的價格決定和變動也具有重大影響。隨著互聯網的出現和發展,使得人們獲取信息更加便利和快捷,企業的各種信息更加公開透明,信息已經成了新的生產要素。互聯網已經成了人們最主要的信息獲取渠道。人們除了在公司網站和財經新聞網站等獲取證券交易所、監管部門和企業發布的公告、財報、個股新聞、行業新聞以及宏觀經濟等信息外,社會化媒體中大量的網友發帖、回復以及討論也成了人們獲取證券市場相關信息的重要途徑。這些大數據信息蘊含著大量的投資者情緒,大數據所形成的信息風暴正深刻地影響著人們的生活和工作的各個方面,開啓了一次新時代的轉型。IBM針對大數據提出了「5V」特點:Volume(數據量大)、Velocity(數據增長快速)、Variety(種類和來源都多樣化,包括結構化、半結構化和非結構化的數據)、Value(有效價值隱藏在海量數據中)、Veracity(數據的真實性)。大數據中充斥著大量的信息,對信息快速有效的甄別和利用將為投資者帶來新的機遇。個人投資者聚集在「股吧」「貼吧」、雪球網等社會化媒體中,發布各種言論信息,是代表市場情緒最有效的方式之一。
在利用社會化媒體和市場情緒構建證券市場投資策略方面,美國已經走在了前面。2017年10月18日,美國EquBot公司與ETF Mangers Group共同推出了首支由人工智能挑選股票的交易基金AIEQ。在IBM的Watson平台上,AIEQ模仿人類股票分析師,利用人工智能技術,365天24小時,全年無休地對美國6000多家上市公司的信息進行分析,包括了從公司管理、監管文件、公司季度財務報告到公司新聞、社會化媒體新聞和市場情緒等方面進行關聯解析和預測建模,從而篩選出30~70支股價最有上升潛力的股票構成AIEQ指數基金。截至2018年2月21日,AIEQ收益率為6.2%,戰勝了標準普爾500(S&P500)指數。雖然AIEQ在市場的表現跌宕起伏,但是隨著其技術的完善和更新,利用海量數據對模型進行優化訓練,人工智能技術在證券市場上必將有長足發展。
傳統數據挖掘的模式是基於「大數定律」,從採集的數據中找到概率性質的規律,並用於對未來趨勢的預測。然而,面對海量的大數據,僅依靠「樣本數據」尋找規律的方式已經不再適用,需要對全量數據進行挖掘和分析。大數據是規模巨大、類型複雜的數據集合,對這些數據進行專業化的加工處理可以產生價值。
基於媒體感知的證券市場風險量化分析是AIEQ的技術核心,實際上作為金融智能的一個重要研究熱點,這是一個現代邊緣交叉多學科融合的領域,其涉及金融學中的資產定價、行為金融、經濟學中的宏觀市場分析、管理學中的信息管理與計算機科學中的自然語言處理和人工智能等多個學科領域。
在金融學領域研究媒體感知的證券市場風險分析中,計量經濟學模型和動態隨機一般均衡模型是研究人員用來觀察媒體新聞事件特別是重大新聞事件對證券市場影響,研究新聞媒體對於證券市場波動關聯性的常用分析模型。然而計量經濟學模型選中的因子變量只能是標量,但證券市場是一個高維度的市場。將高維度信息降維成為標量應用於計量經濟學模型時,必然不可避免地會損失掉許多有用的信息。動態隨機一般均衡模型基於完全理性的假設,然而在證券市場的實證分析和研究中有許多與理性人假設不相容的「金融異象」。傳統金融研究注重分析因果關係,卻不能精確地捕捉和量化新聞媒體對證券市場影響的深度和廣度。
面對爆炸式的媒體信息,越來越多的研究人員將計算機信息技術與各個學科結合,開始使用計算機相關信息技術,嘗試在大數據背景下,利用自然語言處理和傳統機器學習模型來分析和研究媒體對於證券市場波動的影響,並取得了一些實質性進展,一些相關的、重要的學術論文紛紛出現在國際頂級學術期刊上。Tetlock開創性地對近20年的《華爾街日報》新聞數據進行情感分類,得出負面情感對證券市場有顯著影響力的結論,並在Journal of Finance上發表了兩篇相關報告。Schumaker和Chen運用詞袋模型量化新聞,利用支持向量迴歸模型探尋出新聞媒體對個股短期波動的影響力。Twitter是美國一個社交與微博服務的平台,用戶可以在上面發布不超過140個字符的消息, 這些消息被稱為「推文(Tweet」。Bollen et al.(2011)通過對超過1000萬條推文進行分析和提取公眾情感,發現了公眾情感中的「冷靜維度」與道瓊斯工業指數高度重合。Fang等人利用新聞數量法,將新聞數量作為影響力的度量,利用線性迴歸的計量模型,探究新聞數量與股票價格、大盤指數和收益率之間的因果關係。然而,證券市場的波動不僅僅與新聞媒體信息相關,還應該包括「股吧」、新浪財經和雪球網等社會化媒體的信息以及互動行為、市場交易信息等多維異構的信息。
綜上所述,目前在大數據背景下基於媒體感知的證券市場風險量化研究存在兩類問題:一是目前中國基本沒有從大數據角度對社會化媒體效應影響證券市場波動的系統性研究,中國與國外證券市場無論從制度方面還是從市場參與者方面都存在很大差異。二是使用傳統計量經濟學方法或機器學習方法,研究互聯網社會化媒體信息與證券市場波動之間的關聯關係,只是對現有方法和技術的組合,忽略了社會化媒體數據特徵和證券市場的重要特性,嚴重影響了分析結果的準確性。
針對第一個問題,本書提出了一套完整的基於社會化媒體感知的證券市場波動智能分析解決方案,從大數據的角度,利用人工智能分析技術,基於傳統金融學的理論框架,全面系統地分析社會化媒體對證券市場波動的影響。利用該方案搭建的智能平台,分佈式地從社會化媒體中爬取億級海量數據,完成特徵提取、信息重構和關聯分析,計算社會化媒體市場情緒指數,並在此基礎上結合市場歷史交易數據信息,捕捉社會化媒體信息和證券市場資本價格及市場波動之間複雜的非線性映射關係,從而形成一整套系統化的智能分析方案。該方案結合中國證券市場特色,為研究金融學領域的經典問題提供了全新的金融智能分析方法,供相關領域研究者進行研究。
針對第二個問題,本書對現有的技術進行了提升。創新性地使用基於中文句子內容相似度及評論結構的智能算法完成基於句法分析的面向大規模文檔的CNN情感判斷模型提取市場情緒。利用從網路爬取的7835萬條新浪財經論壇、東方財富股吧論壇和雪球網論壇數據構建基於內容相似度和評論結構的關聯關係矩陣。使用卷積神經網路,將論壇數據中的句子映射為輸入矩陣,提取句子語義。相對於傳統媒體信息量化方法,關聯關係矩陣記錄了信息之間的關聯程度,保留了語句的權重,能夠快速地從海量的社會化媒體數據中找出主導性的信息。卷積神經網路通過局部連接和權重共享降低了模型的參數數量,使得模型訓練複雜度大大的降低,並且也有效地解決了過擬合問題。通過保留語句中詞向量之間的位置空間特徵,卷積神經網路極大地提高了句子情感判定的準確性。通過自適應學習的策略,在沒有大量手工構造訓練樣本的基礎上,也能保證句子情感分類的準確性,在面對大規模文檔處理中,提高了分類效率。同時以社會化媒體情緒為驅動的長短期記憶時間遞歸神經網路為核心,構建了基於社會化媒體效應的證券市場波動分析模型。遞歸神經網路RNN已經被證明在處理序列數據時非常有效。長短期記憶是一種典型的RNN結構,其應用非常成功。LSTM由於對間隔和延遲長的重要事件具有記憶能力,非常適合處理該類型的時間序列數據。本書利用以社會化媒體情緒為驅動的S-LSTM模型,有效地解決了證券市場中連續時序數據和離散時序數據相結合的問題,從而為快速精準地捕捉社會化媒體信息與證券市場波動之間複雜的非線性關係奠定了堅實的基礎。
同時,本書進一步借助基於社會化媒體效應的證券市場波動分析模型,搭建用於分析互聯網社會化媒體對證券市場波動影響的大數據分析平,即社會化媒體效應量化智能平臺,並實現了數據集合和核心算法的開源共享。該平臺從證券市場監管、上市公司管理和投資者行為等不同的角度,為證券市場網路媒體效應的研究者、證券市場實踐者提供理論參考和決策支持。中國證券市場的體制還在不斷完善的過程中,在網路上發布虛假輿論從而擾亂證券市場的行為時有發生。本書從金融市場監管角度,就如何利用深度神經網路提高市場監管效率進行了深入探討。
1導論
1.1選題背景和研究意義
1.1.1選題背景
自從1990年12月19日上海證券交易所和1991年7月3日深圳證券交易所先後正式開業,中國證券市場已經經歷了近30年的發展。至2017年年底,在滬、深交易所上市的公司數量達到了3485家,總市值達到567086.077億元。證券市場已經成為中國國民經濟不可分割的重要組成部分。中國未來的風險主要在金融領域,要防範金融風險。現在證券監管部門已經把監控作為了第一要務。證券市場是「國民經濟的晴雨表」,證券市場的穩定不僅僅是國家經濟健康發展的基石,同時在維護社會穩定,防範系統性金融風險方面也發...
推薦序
截至2017年年底,中國證券市場的上市公司數量已達到3485家,總市值達到567086.077億元。證券市場已經成為中國國民經濟的重要組成部分。證券市場是「國民經濟的晴雨表」,證券市場的穩定不僅是經濟健康發展的基石,同時在維護社會穩定、防範系統性金融風險方面也發揮著重要的作用。黨的十九大和2018年全國「兩會」明確指出,中國未來的風險主要在金融領域,要防範金融風險。現在證券監管部門已經把監控作為了第一要務。中國在短短的28年間經歷了多次的「牛」「熊」更替,其中的主要原因是投資者情緒過度樂觀或者過度恐慌,「追漲殺跌」「盲目跟風」「羊群效應」等造成了證券市場的大幅波動。市場情緒是各類投資者情緒的綜合體現,在中國證券市場中,個人投資者占比為99.73%,其情緒將對市場產生巨大的影響,並且個人投資者的情緒化交易行為相對於機構投資者來說更加普遍。現代行為金融學認為,股票價格不僅僅由股票的內在價值決定,受信息影響的投資者的心理與行為對股票的價格決定和變動也具有重大影響。
通過對現有文獻的梳理發現,目前研究投資者的情緒對證券市場波動影響時,通常使用間接情緒指標和直接情緒指標對投資者情緒進行測量。間接情緒指標採用客觀的測量來從側面反應投資者的情緒,但由於其基於歷史交易數據構建,在衡量投資者情緒時有明顯的滯後性;直接情緒指標可通過對投資者進行問卷調查獲得,但調查時的情緒不代表其投資決策時的情緒,這樣測量的誤差較大,並且調查成本較高。隨著互聯網的出現和發展,人們獲取信息更加便利和快捷。互聯網已經成了人們最主要的信息獲取渠道。投資者在各社會化媒體平臺中獲取、發布和傳播證券市場相關信息,其中蘊含著大量投資者的情緒。爆炸式的媒體信息吸引了學術界和業界大量研究人員嘗試使用自然語言處理技術和傳統機器學習模型來挖掘媒體信息中的投資者情緒以及分析其對證券市場波動的影響。然而受信息技術和跨學科領域的限制,目前的相關研究對社會化媒體信息挖掘的角度不夠完整,提取的投資者情緒不具代表性,使用的分析方法已無法適用於大數據背景下海量社會化媒體對證券市場影響的研究。
因此,本書利用定向分佈式爬蟲從社會化媒體平臺獲取完整的文本信息,提出中文語句卷積神經網路(Chinese Sentence Convolutional Neural Network,CSCNN)核心算法可以根據中文語法和語義結構提取文本情緒,結合社會化媒體文本信息的結構特點構建出社會化媒體投資者情緒指數(Social Media Investor Sentiment Index,SMISI),在基於社會化媒體情緒驅動的長短期記憶深度神經網路(Sentiment-driven Long Short-Term Memory,S-LSTM)核心算法基礎上搭建證券市場的社會化媒體效應量化智能平臺(Social Media Quantitative Intelligent Platform,SMQIP),用於探析社會化媒體投資者情緒對證券市場影響的深度和廣度。從結構上看,本書由八章組成,具體內容為:
第1章導論,主要介紹選題背景、研究的意義、研究的思路和方法、全書的結構安排以及主要創新點。
第2章文獻綜述,主要對社會化媒體量化、市場情緒和社會化媒體對證券市場波動影響三個方面的理論和文獻進行了系統的回顧和梳理。本章為研究社會化媒體量化、剖析社會化媒體信息與證券市場波動和防範系統性金融風險研究提供了強有力的支持和論證。
第3章系統總體設計,從系統總體設計的角度,自上向下對本書的邏輯模塊和流程進行概述,對系統的數據處理流程進行說明,明確證券市場社會化媒體效應智能解決方案中模塊之間的關係,理順系統從數據抓取到文本信息處理情感提取,再到利用深度學習神經網路對社會化媒體與證券市場波動的影響進行關聯分析的流程,以確保系統模塊完整和研究順利推進。
第4章社會化媒體量化與投資者情緒提取研究,主要對社會化媒體文本信息量化和投資者情緒的提取進行研究。首先對社會化媒體信息的抓取、過濾、預處理和詞彙量化過程進行了描述;隨後提出依據中文語句的語法和語義結構構建中文語句卷積神經網路(CSCNN)核心算法對文本情感極性進行判定;接著對情感判定模型進行了比較研究。
第5章投資者情緒指數的構造,借鑑傳統指數構造原理,利用社會化媒體平臺文本信息結構特點,創新性地提出基於內容相似度矩陣、引用關係矩陣和回復關係矩陣的社會化媒體文本語句權重Sentence Rank算法計算語句權重,結合用戶影響力因子、閱讀數量因子和點讚數量因子,構造了社會化媒體投資者情緒指數(SMISI),為後續研究提供了重要的特徵變量。
第6章SMISI對證券市場波動的量化研究, 通過實證研究, 首先將SMISI與Fama五因子模型結合,驗證了SMISI對證券市場收益率的系統性影響;接著利用VAR模型研究SMISI對證券市場波動影響的深度和廣度。隨後提出基於社會化媒體情緒驅動的S-LSTM深度神經網路模型核心算法,更加準確地捕捉社會化媒體投資者情緒對證券市場的影響效應,並通過模擬的方式驗證了SMISI在量化投資中應用的可行性。
第7章面向證券市場策略的SMQIP檢驗與分析,從市場監管者、上市公司和投資者三個不同的角度剖析了社會化媒體信息引導市場情緒,導致證券市場資產價格波動,甚至影響金融穩定的內在機理。並利用具體案例從以上三個角度分別驗證了基於大數據的證券市場社會化媒體效應量化智能平台(SMQIP)的應用可行性。
第8章總結、不足與研究展望,對全書進行了總結,對研究中存在的不足進行了分析和反思,對於金融智能領域的研究熱點和方向以及未來可能進行的研究計劃進行了展望。
本書在現有研究的基礎之上,沿著「社會化媒體———投資者情緒———證券市場波動」的主線,對基於大數據的證券市場媒體效應進行了量化分析,主要的創新之處有以下三個方面:
第一,提出了一個基於深度學習的公眾情緒文本挖掘方法,綜合考慮文本內容和質量的影響,以捕捉社會化媒體中的公眾情緒。本書利用中文語句卷積神經網路對證券市場環境下的文本信息進行情感判定,結合社會化媒體結構特性,創新性地提出一套基於信息內容和發布結構的公眾情緒提取方法,利用論壇特有的結構即發帖、回復、轉發和引用等構建內容和結構的關聯圖,進而得到綜合關聯關係矩陣,從散亂的、高噪音的論壇信息討論中挖掘出主導性言論。綜合考慮社會化媒體信息的重要性和情感極性,提取出公眾對上市公司、板塊或整體市場的情緒傾向。
第二,基於社會化媒體大數據,研究和優化了證券市場情緒指數的構建方法。本書創新性地利用統計學中指數構造原理,對正面情緒和負面情緒給予不同權重,構造了證券市場的社會化媒體投資者情緒指數(SMISI),並結合證券市場歷史交易數據,從大數據角度系統剖析社會化媒體對證券市場波動的影響機理和傳導機制,為金融學領域經典問題的研究提供了大數據驅動的探索思路;同時,結合成分股的社會化媒體情感指數,細分了社會化媒體主板情感指數、中小板情感指數和創業板情感指數等。這些指數對於金融市場監管者監控證券市場波動、上市公司決策和投資者投資組合時都有重要的參考價值。
第三,集成情緒判定、文本賦權和情緒指數市場效應評估等核心算法,構建了情緒對證券市場波動影響分析的系統原型,並應用於本書的研究中。本書開創性地通過以社會化媒體情緒為驅動的時序神經網路,通過改造LSTM單元,增加情緒增強門,改變了遺忘門、輸入門和輸出門數據結構,解決了深度神經網路中連續時序數據和離散時序數據融合的問題。基於此搭建的基於大數據的證券市場社會化媒體效應量化智能平臺(SMQIP),可以為市場監管機構、上市公司、投資者以及相關領域研究者提供理論參考和決策支持。以社會化媒體情緒為驅動的時序神經網路結構也可為其他領域對連續時序數據和離散時序數據問題的解決開拓新的思路。
截至2017年年底,中國證券市場的上市公司數量已達到3485家,總市值達到567086.077億元。證券市場已經成為中國國民經濟的重要組成部分。證券市場是「國民經濟的晴雨表」,證券市場的穩定不僅是經濟健康發展的基石,同時在維護社會穩定、防範系統性金融風險方面也發揮著重要的作用。黨的十九大和2018年全國「兩會」明確指出,中國未來的風險主要在金融領域,要防範金融風險。現在證券監管部門已經把監控作為了第一要務。中國在短短的28年間經歷了多次的「牛」「熊」更替,其中的主要原因是投資者情緒過度樂觀或者過度恐慌,「追漲殺跌」「盲...
目錄
1導論 …………………………………………………………………… (1)
1.1選題背景和研究意義 ……………………………………………… (1)
1.1.1選題背景 ……………………………………………………… (1)
1.1.2研究意義 ……………………………………………………… (6)
1.2研究思路、研究方法和研究結構 ………………………………… (9)
1.2.1研究思路和研究方法 ………………………………………… (9)
1.2.2研究結構 …………………………………………………… (12)
1.3本書主要創新點 ………………………………………………… (14)
2文獻綜述……………………………………………………………… (17)
2.1證券市場波動相關理論 ………………………………………… (17)
2.1.1現代經典金融理論相關分析 ……………………………… (17)
2.1.2行為金融理論相關分析 …………………………………… (19)
2.1.3中國證券市場有效性研究及情緒影響分析 ……………… (22)
2.1.4證券市場相關理論評述 …………………………………… (24)
2.2投資者情緒與證券市場 ………………………………………… (25)
2.2.1投資者情緒的定義和衡量 ………………………………… (26)
2.2.2投資者情緒與證券市場收益 ……………………………… (29)
2.2.3現存問題與分析 …………………………………………… (32)
2.3社會化媒體與投資者情緒 ……………………………………… (35)
2.3.1社會化媒體研究現狀 ……………………………………… (36)
2.3.2社會化媒體情緒及其應用分析 …………………………… (38)
2.3.3社會化媒體情緒研究評述 ………………………………… (40)
2.4社會化媒體量化及其應用 ………………………………………… (41)
2.4.1文本量化方法 ……………………………………………… (41)
2.4.2預測分析模型 ……………………………………………… (46)
2.4.3現存問題與分析 …………………………………………… (51)
2.5本章小結 ………………………………………………………… (53)
3系統總體設計 ……………………………………………………… (55)
3.1問題描述及解決思路 …………………………………………… (55)
3.1.1海量社會化媒體文本信息無法被自動、高效、準確獲取 … (55)
3.1.2社會化媒體包含了大量的雜亂無序的噪音信息,導致很難準確判定其包含的投資者傾向性情感信息 …………………… (57)
3.1.3基於社會化媒體的市場公眾情緒量化準確率較低、監測效能差……………………………………………………………… (59)
3.1.4研究表明社會化媒體情緒對證券市場波動存在影響,但如何準確地刻畫其影響深度和廣度仍然是一個重大的挑戰 … (60)
3.2現狀分析 ………………………………………………………… (61)
3.3平臺總體結構與數據處理流程 ………………………………… (64)
3.3.1平臺總體結構與功能模塊 ………………………………… (64)
3.3.2總體數據處理流程 ………………………………………… (67)
3.4本章小結 ………………………………………………………… (68)
4社會化媒體量化與投資者情緒提取研究……………………… (70)
4.1研究現狀與解決思路 …………………………………………… (70)
4.1.1基於社會化媒體對證券市場波動影響的研究現狀 ……… (70)
4.1.2解決思路 …………………………………………………… (72)
4.2技術路線圖 ……………………………………………………… (73)
4.3社會化媒體數據獲取與相關處理 ……………………………… (74)
4.3.1社會化媒體數據獲取 ……………………………………… (74)
4.3.2社會化媒體數據描述性統計分析 ………………………… (76)
4.3.3社會化媒體數據預處理 …………………………………… (77)
4.3.4社會化媒體數據向量化表示 ……………………………… (80)
4.4CSCNN深度神經網路情感判定模型…………………………… (84)
4.4.1構建訓練樣本 ……………………………………………… (84)
4.4.2CSCNN的構建 ……………………………………………… (87)
4.4.3CSCNN深度神經網路性能評估指標 ……………………… (93)
4.4.4社會化媒體文本情感計算 ………………………………… (94)
4.4.5CSCNN深度神經網路訓練實驗 …………………………… (95)
4.4.6CSCNN深度神經網路訓練實驗測評 ……………………… (96)
4.4.7社會化媒體文本情緒統計特徵分析 ……………………… (98)
4.5本章小結 ………………………………………………………… (100)
5投資者情緒指數的構造 ………………………………………… (102)
5.1研究現狀與構造原理 …………………………………………… (102)
5.1.1國內外研究現狀概述 ……………………………………… (102)
5.1.2SMISI指數構造因子選擇 ………………………………… (105)
5.2 文本語句權重SR因子 ………………………………………… (106)
5.2.1相關理論介紹 ……………………………………………… (106)
5.2.2社會化媒體語句權重Sentence Rank算法 ………………… (108)
5.2.3社會化媒體語句權重Sentence Rank算法實驗測評 ……… (110)
5.3用戶影響力UI因子 …………………………………………… (113)
5.3.1用戶影響力算法 …………………………………………… (113)
5.3.2用戶影響力算法實驗測評 ………………………………… (113)
5.4閱讀數量RC因子 ……………………………………………… (115)
5.4.1閱讀數量因子算法 ………………………………………… (115)
5.4.2閱讀數量描述性統計分析 ………………………………… (115)
5.5點讚數量LC因子 ……………………………………………… (117)
5.5.1點讚數量因子算法 ………………………………………… (117)
5.5.2點讚數量統計分析 ………………………………………… (118)
5.6投資者情緒指數SMISI的構造與分析………………………… (119)
5.6.1SMISI的構造 ……………………………………………… (120)
5.6.2SMISI與市場相關性統計分析 …………………………… (121)
5.7本章小結 ………………………………………………………… (124)
6SMISI對證券市場波動的量化研究…………………………… (126)
6.1投資者情緒對證券市場波動的影響及其研究方法的比較與選擇…………………………………………………………………… (126)
6.1.1統計模型 …………………………………………………… (127)
6.1.2計量經濟學迴歸模型 ……………………………………… (127)
6.1.3基於機器學習的模型 ……………………………………… (128)
6.2基於Fama五因子的SMISI與市場收益率實證分析………… (128)
6.2.1基本原理及模型構建 ……………………………………… (128)
6.2.2模型數據來源及實證分析 ………………………………… (130)
6.3基於VAR模型的SMISI與市場收益率實證分析 …………… (135)
6.3.1基本原理及模型設計 ……………………………………… (135)
6.3.2模型數據來源及實證分析 ………………………………… (137)
6.3.3實證結論 …………………………………………………… (142)
6.4基於情緒驅動的S-LSTM深度神經網路模型 ……………… (142)
6.4.1經典LSTM理論基礎及問題 ……………………………… (143)
6.4.2S-LSTM模型 ……………………………………………… (145)
6.4.3S-LSTM性能評估指標 …………………………………… (149)
6.4.4S-LSTM深度神經網路訓練實驗 ………………………… (150)
6.4.5S-LSTM深度神經網路訓練實驗測評 …………………… (152)
6.4.6基於S-LSTM深度神經網路的投資模擬 ………………… (156)
6.5本章小結 ………………………………………………………… (158)
7面向證券市場策略的SMQIP檢驗與分析 ………………… (160)
7.1相關分析 ………………………………………………………… (160)
7.1.1技術可行性分析 …………………………………………… (161)
7.1.2相關法律問題探討 ………………………………………… (162)
7.2SMQIP決策支持總體設計 …………………………………… (163)
7.2.1核心算法層 ………………………………………………… (164)
7.2.2決策支持層 ………………………………………………… (165)
7.3市場監管支持 …………………………………………………… (167)
7.3.1監管部門決策參考 ………………………………………… (167)
7.3.2監管部門決策應用 ………………………………………… (168)
7.4公司管理支持 …………………………………………………… (171)
7.4.1公司管理決策參考 ………………………………………… (172)
7.4.2公司管理決策應用 ………………………………………… (173)
7.5投資決策支持 …………………………………………………… (174)
7.5.1投資者決策參考 …………………………………………… (174)
7.5.2投資者決策應用 …………………………………………… (175)
7.6本章小結 ………………………………………………………… (177)
8總結、不足與研究展望 …………………………………………… (178)
8.1研究總結 ………………………………………………………… (178)
8.1.1海量社會化媒體數據智能採集方案 ……………………… (178)
8.1.2中文語句卷積神經網路(CSCNN)情感極性判定核心算法… (179)
8.1.3社會化媒體情緒指數SMISI ……………………………… (179)
8.1.4基於情緒驅動的長短期記憶(S-LSTM)深度神經網路模型…(179)
8.1.5基於社會化媒體效應量化智能平台(SMQIP)的市場參與者決策支持 …………………………………………… (180)
8.2研究的不足與改進 ……………………………………………… (180)
8.2.1數據源類型不夠全面,尚有不足,需改進 ………………… (180)
8.2.2使用向量作為神經網路輸入的不足與改進 ……………… (180)
8.2.3模擬交易未考慮交易成本等因素的不足與改進 ………… (181)
8.3研究展望 ………………………………………………………… (181)
8.3.1基於社會化媒體平臺操縱市場行為特徵識別的研究 …… (181)
8.3.2基於企業社會化媒體網路的影響聯動和疊加效應研究… (182)
8.3.3深度學習神經網路在證券市場領域的應用方法創新研究…(182)
8.3.4程序化交易數量日益增長情景下的證券市場波動研究…… (182)
參考文獻 ………………………………………………………………… (183)
1導論 …………………………………………………………………… (1)
1.1選題背景和研究意義 ……………………………………………… (1)
1.1.1選題背景 ……………………………………………………… (1)
1.1.2研究意義 ……………………………………………………… (6)
1.2研究思路、研究方法和研究結構 ………………………………… (9)
1.2.1研究思路和研究方法 ………………………………………… (9)
1.2.2研究結構 …………………………………………………… (12)
1.3本書主要創新點 ………………………………………...