本書包括四大部分,第一部分包括第1、2章,第1章介紹多模態資訊的基本概念、難點、使用深度學習方法的動機、多模態資訊處理的基礎技術,以及這些技術的發展歷史,第2章介紹主流多模態研究任務。第二部分包括第3、4章,分別介紹多模態深度學習模型中常用的文本表示和圖像表示技術。第三部分包括第 5∼8 章,分別介紹針對特定任務,以深度學習為基礎的多模態表示、對齊、融合和轉換這 4 種技術,且每章都提供了一個可運行的、完整的實戰案例。第四部分即第9章,介紹綜合使用上述基礎技術,並以學習通用多模態表示或同時完成多個多模態任務為目標的多模態預訓練技術,在現今AI技術範式轉換的時代,將會是你精通人工智慧的重要參考資料。
作者簡介:
馮方向
北京郵電大學人工智慧學院助理教授。主要研究方向為多模態計算,主持和參與多項國家級科研專案。發表學術論文30餘篇,曾獲ACM Multimedia最佳論文提名,單篇引用超過500次,2022~2023年連續入選Aminer人工智慧全球最具影響力學者提名。主講大學課程「神經網絡與深度學習」、「多模態資訊處理」,主持和參與多項教學專案。
王小捷
北京郵電大學人工智慧學院教授,智慧科學研究中心主任,中國人工智慧學會自然語言理解專委會主任,中國教育部人工智慧領域教學資源及新型教材建設專家組成員,自然語言處理領域首席專家。主要研究方向為自然語言處理與多模態計算,已發表學術論文300餘篇。
作者序
前言
視覺、聽覺、觸覺、嗅覺、味覺是人類擁有的五種感官,每一種感官都為我們提供了關於我們生活的世界的獨特資訊。儘管這五種感官各不相同,但是我們對周圍世界的感覺卻是統一的多感覺體驗,並不雜亂。粗略地說,人類可透過多種感官獲得對物理世界的統一的多模態的體驗。隨著行動網際網路的發展,透過多個模態的資訊共同表示的資料的規模迅速增大,迫切需要發展綜合處理多個模態資訊的理論、方法和技術。因此,多模態資訊處理的研究具有重要的科學意義和廣泛的應用需求。
在深度學習出現以前,多模態資訊處理的研究進展較為緩慢,主要集中在少數幾個特定任務上。2010 年之後,深度學習技術使用相同的基礎結構和最佳化演算法在影像、文字、語音資料處理上不斷取得突破,為將其應用於處理多模態資訊資料提供了條件。基於深度學習的方法幫助多模態資訊處理獲得了巨大的突破,提升了大多數已有多模態任務的性能,也使得解決更加複雜的多模態任務成為可能。因此,本書專注介紹基於深度學習的多模態資訊處理技術。
儘管多模態資訊處理近年來才成為人工智慧領域的研究熱點,但是本書作者有超過 10年的多模態資訊處理研究經驗,且在 2013 年就發表過使用深度學習方法進行圖文跨模態檢索的研究論文。作者所在的北京郵電大學智慧科學與技術中心團隊也為 2012 級及以後的智慧科學與技術專業大學生開設了「多模態資訊處理」課程。本書正是以這門課程的講義為主要內容撰寫而成的,是團隊在多模態資訊處理領域長期的科學研究和教學成果的結晶。
內容上,本書力求系統地介紹基於深度學習的多模態資訊處理技術,偏重介紹最通用、最基礎的技術,覆蓋了多模態表示、對齊、融合和轉換 4 種基礎技術,同時也介紹了多模態資訊處理領域的最新發展前端技術——多模態預訓練技術。此外,為了讓讀者可以實踐這些多模態深度學習技術,本書提供了 4 個可執行的、完整的實戰案例,分別對應多模態表示、對齊、融合和轉換這 4 種基礎技術。
本書可作為多模態資訊處理、多模態深度學習等相關課程的教學參考書,適用於高等院校智慧科學與技術和人工智慧等專業的大學生、所究所學生,同時可供對多模態深度學習技術感興趣的工程師和研究人員參考。
本書主要內容
本書內容分為 4 部分:初識多模態資訊處理、單模態深度學習表示技術、多模態深度學習基礎技術、多模態預訓練技術。
第一部分包括第 1 章和第 2 章,第 1 章介紹多模態資訊的基本概念、困難、使用深度學習方法的動機、多模態資訊處理的基礎技術,以及這些技術的發展歷史,第 2 章介紹若干熱門的多模態研究任務。
第二部分包括第 3 章和第 4 章,分別介紹多模態深度學習模型中常用的文字表示和影像表示技術。
第三部分包括第 5∼8 章,分別介紹特定任務導向的基於深度學習的多模態表示、對齊、融合和轉換這 4 種技術,且每章都提供了一個可執行的、完整的實戰案例。
第四部分即第 9 章,介紹綜合使用上述基礎技術,並以學習通用多模態表示或同時完成多個多模態任務為目標的多模態預訓練技術。
致謝
感謝現在和曾經在北京郵電大學智慧科學與技術中心從事多模態深度學習研究的全體老師和同學,本書的不少內容得益於團隊的研究成果。
感謝微軟亞洲研究院的吳晨飛博士為第 7 章的實戰案例部分提供的程式支援。本書的撰寫參閱了大量的著作和文獻,在此一併表示感謝!
感謝北京清華大學出版社為本書出版所做的一切。
由於作者水準有限,書中不足及錯誤之處在所難免,敬請專家和讀者給予批評指正。
前言
視覺、聽覺、觸覺、嗅覺、味覺是人類擁有的五種感官,每一種感官都為我們提供了關於我們生活的世界的獨特資訊。儘管這五種感官各不相同,但是我們對周圍世界的感覺卻是統一的多感覺體驗,並不雜亂。粗略地說,人類可透過多種感官獲得對物理世界的統一的多模態的體驗。隨著行動網際網路的發展,透過多個模態的資訊共同表示的資料的規模迅速增大,迫切需要發展綜合處理多個模態資訊的理論、方法和技術。因此,多模態資訊處理的研究具有重要的科學意義和廣泛的應用需求。
在深度學習出現以前,多模態資訊處理的研究進展較為緩慢,...
目錄
第 1 章 緒論
1.1 多模態資訊處理的概念
1.2 多模態資訊處理的困難
1.3 使用深度學習技術的動機
1.4 多模態資訊處理的基礎技術
1.5 多模態深度學習技術的發展歷史
1.6 小結
1.7 習題
第 2 章 多模態任務
2.1 圖文跨模態檢索
2.2 影像描述
2.3 視覺問答
2.4 文字生成影像
2.5 指代表達
2.6 小結
2.7 習題
第 3 章 文字表示
3.1 基於詞嵌入的靜態詞表示
3.2 基於循環神經網路的動態詞表示
3.3 基於注意力的預訓練語言模型表示
3.4 小結
3.5 習題
第 4 章 影像表示
4.1 基於卷積神經網路的整體表示和網格表示
4.2 基於物件辨識模型的區域表示
4.3 基於視覺 transformer 的整體表示和區塊表示
4.4 基於自編碼器的壓縮表示
4.5 小結
4.6 習題
第 5 章 多模態表示
5.1 共用表示
5.2 對應表示
5.3 實戰案例:基於對應表示的跨模態檢索
5.4 小結
5.5 習題
第 6 章 多模態對齊
6.1 基於注意力的方法
6.2 基於圖神經網路的方法
6.3 實戰案例:基於交叉注意力的跨模態檢索
6.4 小結
6.5 習題
第 7 章 多模態融合
7.1 基於雙線性融合的方法
7.2 基於注意力的方法
7.3 實戰案例:基於 MFB 的視覺問答
7.4 小結
7.5 習題
第 8 章 多模態轉換
8.1 基於編解碼框架的方法
8.2 基於生成對抗網路的方法
8.3 實戰案例:基於注意力的影像描述
8.4 小結
8.5 習題
第 9 章 多模態預訓練
9.1 整體框架
9.2 預訓練資料集
9.3 模型結構
9.4 預訓練任務
9.5 下游任務
9.6 典型模型
9.7 小結
9.8 習題
參考文獻
第 1 章 緒論
1.1 多模態資訊處理的概念
1.2 多模態資訊處理的困難
1.3 使用深度學習技術的動機
1.4 多模態資訊處理的基礎技術
1.5 多模態深度學習技術的發展歷史
1.6 小結
1.7 習題
第 2 章 多模態任務
2.1 圖文跨模態檢索
2.2 影像描述
2.3 視覺問答
2.4 文字生成影像
2.5 指代表達
2.6 小結
2.7 習題
第 3 章 文字表示
3.1 基於詞嵌入的靜態詞表示
3.2 基於循環神經網路的動態詞表示
3.3 基於注意力的預訓練語言模型表示
3.4 小結
3.5 習題
第 4 章 影像表示
4.1 基於卷積神經網路的整體表示和...