視覺問答任務要求機器根據指定的視覺圖像內容, 對單輪或多輪的自然語言問題進行作答。其本質上是一個多學科的研究問題,涉及計算機視覺、自然語言處理、知識表示與推理等。本書共5 部分,第1 部分介紹在計算機視覺和自然語言處理領域廣泛使用的基本方法和技術,包括卷積神經網路、序列建模和注意力機制等。本書將視覺問答分為圖像和視頻方法。第2 部分將圖像視覺問答進一步分為五類,即聯合嵌入、注意力機制、記憶網路、組合推理和圖神經網路。
此外,概述基於圖像的其他視覺問答任務,例如基於知識的視覺問答、視覺問答的視覺和語言預訓練。第3 部分討論基於視頻的視覺問答及其相關模型。第4 部分討論與視覺問答相關的高級任務,包括具身視覺問答、醫學視覺問答、基於文本的視覺問答、視覺問題生成、視覺對話和指代表達理解,它們是視覺問答任務的擴展。第5 部分對該領域進行總結和展望,討論視覺問答領域的未來研究方向。