第 1 章 緒論
1.1 多模態資訊處理的概念
1.2 多模態資訊處理的困難
1.3 使用深度學習技術的動機
1.4 多模態資訊處理的基礎技術
1.5 多模態深度學習技術的發展歷史
1.6 小結
1.7 習題
第 2 章 多模態任務
2.1 圖文跨模態檢索
2.2 影像描述
2.3 視覺問答
2.4 文字生成影像
2.5 指代表達
2.6 小結
2.7 習題
第 3 章 文字表示
3.1 基於詞嵌入的靜態詞表示
3.2 基於循環神經網路的動態詞表示
3.3 基於注意力的預訓練語言模型表示
3.4 小結
3.5 習題
第 4 章 影像表示
4.1 基於卷積神經網路的整體表示和網格表示
4.2 基於物件辨識模型的區域表示
4.3 基於視覺 transformer 的整體表示和區塊表示
4.4 基於自編碼器的壓縮表示
4.5 小結
4.6 習題
第 5 章 多模態表示
5.1 共用表示
5.2 對應表示
5.3 實戰案例:基於對應表示的跨模態檢索
5.4 小結
5.5 習題
第 6 章 多模態對齊
6.1 基於注意力的方法
6.2 基於圖神經網路的方法
6.3 實戰案例:基於交叉注意力的跨模態檢索
6.4 小結
6.5 習題
第 7 章 多模態融合
7.1 基於雙線性融合的方法
7.2 基於注意力的方法
7.3 實戰案例:基於 MFB 的視覺問答
7.4 小結
7.5 習題
第 8 章 多模態轉換
8.1 基於編解碼框架的方法
8.2 基於生成對抗網路的方法
8.3 實戰案例:基於注意力的影像描述
8.4 小結
8.5 習題
第 9 章 多模態預訓練
9.1 整體框架
9.2 預訓練資料集
9.3 模型結構
9.4 預訓練任務
9.5 下游任務
9.6 典型模型
9.7 小結
9.8 習題
參考文獻