前言
各企業資料集普遍存在資料不完整的情況。據統計,在機器學習和資料採擷應用過程中,不完整資料的前置處理花費大量的時間和精力。不完整資料處理是現實世界中分類知識採擷必須認真考慮和對待的重要問題。有效地處理不完整資料有助於更加充分地利用已經搜集到的資料,進一步加強機器學習和資料採擷的效率,探索不完整資料的分類知識採擷具有重要的現實意義。
本書探討了不完整資料分類演算法的改進策略,第1 章為不完整資料知識發現研究背景概述,第2 章針對單純信念分類演算法忽略了屬性變數的投票加權,提出了以相關係數為基礎的加權保守推理規則;第3 章針對目前半監督分類演算法中未考慮缺失屬性資料項目隱含資訊和演算法複雜度高的情況,提出兩階段半監督加權單純信念分類模型;第4 章針對單純信念分類演算法明確分類樣本比例低的情況,提出以放鬆區間優勢為基礎的不完整資料分類模型。並均在國際公開標準資料集上進行了比較實驗,驗證了提出模型在不完整資料上進行分類知識發現的效能。
典籍英譯本的文體風格識別在對外作品推薦、匿名作者識別和促進中外文化交流方面具有重要的意義。本書第5 章選擇典籍英譯作品作為研究物件,進行以不完整資料分類演算法為基礎的文體風格識別應用研究,進一步驗證了本書提出的模型方法的有效性和效能。
本書第6 章嘗試在最大熵文字分類模型中使用高斯平滑進行特徵補償,並提出混合的特徵選擇方法對傳統的特徵選擇方法進行改進。實驗結果顯示,以特徵缺失補償最大熵模型為基礎的分類器的綜合性能較好。
本書第7 章以微博為基礎的網路輿情指標系統,分析以關鍵字為基礎的微博輿情傳播規律,進行了以關鍵字為基礎的網路輿情個案研究;同時探討網路文字的多語言特性,分析網路文字情感分析粒度、基本問題、前端問題和研究架構。
本書可以作為資料採擷或文字分析領域的研究人員及相關專業系所學生開展文字分析與處理研究的教科書,也可以作為政府相關部門產品研發人員的參考書。
本書能夠儘快完成出版,首先要感謝我的同事霍躍紅老師,本書的研究思想的起源來自與霍躍紅老師的探討合作,她無私提供了典籍英譯文字語料;感謝劉彩虹老師、郭旭老師等,以及參與資料收集和整理的同學們,本書的許多專題研究都與他們有深入的討論。還要感謝清華大學出版社的編輯,是他才使得本書得以順利出版。最後感謝在本書中所參考文獻的作者們和公開語料庫的開發者們,本書的寫作從他們的研究成果中獲得了很多營養,正是他們勤奮和分享的科學研究精神引領和啟發我完成本書的寫作。
本書研究獲得大連外國語大學學術專著出版資助,2014 年大連外國語大學學科建設專項經費資助,特此表示感謝。
雖然我始終以認真嚴謹的態度對待本書的撰寫工作,但很多研究尚屬於探索階段,書中難免有不足之處,懇請讀者們批評指正!
祁瑞華