購物比價找書網找車網
FindBook  
 有 5 項符合

GPT5新時代:多模態深度學習精實操練

的圖書
GPT5新時代 - 多模態深度學習精實操練 GPT5新時代 - 多模態深度學習精實操練

作者:馮方向王小捷 
出版社:深智數位股份有限公司
出版日期:2024-04-24
語言:繁體書   
圖書介紹 - 資料來源:博客來   評分:
圖書名稱:GPT5新時代:多模態深度學習精實操練

內容簡介

  本書包括四大部分,第一部分包括第1、2章,第1章介紹多模態資訊的基本概念、難點、使用深度學習方法的動機、多模態資訊處理的基礎技術,以及這些技術的發展歷史,第2章介紹主流多模態研究任務。第二部分包括第3、4章,分別介紹多模態深度學習模型中常用的文本表示和圖像表示技術。第三部分包括第 5∼8 章,分別介紹針對特定任務,以深度學習為基礎的多模態表示、對齊、融合和轉換這 4 種技術,且每章都提供了一個可運行的、完整的實戰案例。第四部分即第9章,介紹綜合使用上述基礎技術,並以學習通用多模態表示或同時完成多個多模態任務為目標的多模態預訓練技術,在現今AI技術範式轉換的時代,將會是你精通人工智慧的重要參考資料。
 

作者介紹

作者簡介

馮方向


  北京郵電大學人工智慧學院助理教授。主要研究方向為多模態計算,主持和參與多項國家級科研專案。發表學術論文30餘篇,曾獲ACM Multimedia最佳論文提名,單篇引用超過500次,2022~2023年連續入選Aminer人工智慧全球最具影響力學者提名。主講大學課程「神經網絡與深度學習」、「多模態資訊處理」,主持和參與多項教學專案。

王小捷

  北京郵電大學人工智慧學院教授,智慧科學研究中心主任,中國人工智慧學會自然語言理解專委會主任,中國教育部人工智慧領域教學資源及新型教材建設專家組成員,自然語言處理領域首席專家。主要研究方向為自然語言處理與多模態計算,已發表學術論文300餘篇。
 

目錄

第 1 章    緒論
1.1 多模態資訊處理的概念
1.2 多模態資訊處理的困難
1.3 使用深度學習技術的動機
1.4 多模態資訊處理的基礎技術
1.5 多模態深度學習技術的發展歷史
1.6 小結
1.7 習題

第 2 章   多模態任務
2.1 圖文跨模態檢索
2.2 影像描述
2.3 視覺問答
2.4 文字生成影像
2.5 指代表達
2.6 小結
2.7 習題

第 3 章    文字表示
3.1 基於詞嵌入的靜態詞表示
3.2 基於循環神經網路的動態詞表示
3.3 基於注意力的預訓練語言模型表示
3.4 小結
3.5 習題

第 4 章    影像表示
4.1 基於卷積神經網路的整體表示和網格表示
4.2 基於物件辨識模型的區域表示
4.3 基於視覺 transformer 的整體表示和區塊表示
4.4 基於自編碼器的壓縮表示
4.5 小結
4.6 習題

第 5 章    多模態表示
5.1 共用表示
5.2 對應表示
5.3 實戰案例:基於對應表示的跨模態檢索
5.4 小結
5.5 習題

第 6 章    多模態對齊
6.1 基於注意力的方法
6.2 基於圖神經網路的方法
6.3 實戰案例:基於交叉注意力的跨模態檢索
6.4 小結
6.5 習題

第 7 章    多模態融合
7.1 基於雙線性融合的方法
7.2 基於注意力的方法
7.3 實戰案例:基於 MFB 的視覺問答
7.4 小結
7.5 習題

第 8 章    多模態轉換
8.1 基於編解碼框架的方法
8.2 基於生成對抗網路的方法
8.3 實戰案例:基於注意力的影像描述
8.4 小結
8.5 習題

第 9 章    多模態預訓練
9.1 整體框架
9.2 預訓練資料集
9.3 模型結構
9.4 預訓練任務
9.5 下游任務
9.6 典型模型
9.7 小結
9.8 習題

參考文獻
 

前言

  視覺、聽覺、觸覺、嗅覺、味覺是人類擁有的五種感官,每一種感官都為我們提供了關於我們生活的世界的獨特資訊。儘管這五種感官各不相同,但是我們對周圍世界的感覺卻是統一的多感覺體驗,並不雜亂。粗略地說,人類可透過多種感官獲得對物理世界的統一的多模態的體驗。隨著行動網際網路的發展,透過多個模態的資訊共同表示的資料的規模迅速增大,迫切需要發展綜合處理多個模態資訊的理論、方法和技術。因此,多模態資訊處理的研究具有重要的科學意義和廣泛的應用需求。

  在深度學習出現以前,多模態資訊處理的研究進展較為緩慢,主要集中在少數幾個特定任務上。2010 年之後,深度學習技術使用相同的基礎結構和最佳化演算法在影像、文字、語音資料處理上不斷取得突破,為將其應用於處理多模態資訊資料提供了條件。基於深度學習的方法幫助多模態資訊處理獲得了巨大的突破,提升了大多數已有多模態任務的性能,也使得解決更加複雜的多模態任務成為可能。因此,本書專注介紹基於深度學習的多模態資訊處理技術。

  儘管多模態資訊處理近年來才成為人工智慧領域的研究熱點,但是本書作者有超過 10年的多模態資訊處理研究經驗,且在 2013 年就發表過使用深度學習方法進行圖文跨模態檢索的研究論文。作者所在的北京郵電大學智慧科學與技術中心團隊也為 2012 級及以後的智慧科學與技術專業大學生開設了「多模態資訊處理」課程。本書正是以這門課程的講義為主要內容撰寫而成的,是團隊在多模態資訊處理領域長期的科學研究和教學成果的結晶。

  內容上,本書力求系統地介紹基於深度學習的多模態資訊處理技術,偏重介紹最通用、最基礎的技術,覆蓋了多模態表示、對齊、融合和轉換 4 種基礎技術,同時也介紹了多模態資訊處理領域的最新發展前端技術——多模態預訓練技術。此外,為了讓讀者可以實踐這些多模態深度學習技術,本書提供了 4 個可執行的、完整的實戰案例,分別對應多模態表示、對齊、融合和轉換這 4 種基礎技術。

  本書可作為多模態資訊處理、多模態深度學習等相關課程的教學參考書,適用於高等院校智慧科學與技術和人工智慧等專業的大學生、所究所學生,同時可供對多模態深度學習技術感興趣的工程師和研究人員參考。

  本書主要內容

  本書內容分為 4 部分:初識多模態資訊處理、單模態深度學習表示技術、多模態深度學習基礎技術、多模態預訓練技術。

  第一部分包括第 1 章和第 2 章,第 1 章介紹多模態資訊的基本概念、困難、使用深度學習方法的動機、多模態資訊處理的基礎技術,以及這些技術的發展歷史,第 2 章介紹若干熱門的多模態研究任務。

  第二部分包括第 3 章和第 4 章,分別介紹多模態深度學習模型中常用的文字表示和影像表示技術。

  第三部分包括第 5∼8 章,分別介紹特定任務導向的基於深度學習的多模態表示、對齊、融合和轉換這 4 種技術,且每章都提供了一個可執行的、完整的實戰案例。

  第四部分即第 9 章,介紹綜合使用上述基礎技術,並以學習通用多模態表示或同時完成多個多模態任務為目標的多模態預訓練技術。

  致謝

  感謝現在和曾經在北京郵電大學智慧科學與技術中心從事多模態深度學習研究的全體老師和同學,本書的不少內容得益於團隊的研究成果。

  感謝微軟亞洲研究院的吳晨飛博士為第 7 章的實戰案例部分提供的程式支援。本書的撰寫參閱了大量的著作和文獻,在此一併表示感謝!

  感謝北京清華大學出版社為本書出版所做的一切。

  由於作者水準有限,書中不足及錯誤之處在所難免,敬請專家和讀者給予批評指正。
 

詳細資料

  • ISBN:9786267383520
  • 規格:平裝 / 296頁 / 17 x 23 x 1.45 cm / 普通級 / 單色印刷 / 初版
  • 出版地:台灣
贊助商廣告
 
 
Taaze 讀冊生活 - 暢銷排行榜
Word、Excel、PowerPoint 強效精攻500招
作者:PCuSER研究室
出版社:PCuSER電腦人文化
出版日期:2023-03-04
$ 157 
博客來 - 暢銷排行榜
原子習慣:細微改變帶來巨大成就的實證法則
作者:詹姆斯‧克利爾 (James Clear)
出版社:方智
出版日期:2019-06-01
$ 260 
Taaze 讀冊生活 - 暢銷排行榜
當爸媽過了65歲:你一定要知道的醫療、長照、財務、法律知識【全新增修版】
作者:康哲偉
出版社:先覺出版
出版日期:2024-11-01
$ 300 
Taaze 讀冊生活 - 暢銷排行榜
制度基因:中國制度與極權主義制度的起源
作者:許成鋼
出版社:國立臺灣大學出版中心
出版日期:2024-11-13
$ 750 
 
Taaze 讀冊生活 - 新書排行榜
腦袋裡的小狗-給孩子的正念繪本
作者:艾莉斯.葛拉維
出版社:時報文化出版企業股份有限公司
出版日期:2024-11-19
$ 224 
Taaze 讀冊生活 - 新書排行榜
114年超好用大法官釋字+憲法訴訟裁判(含精選題庫)[警察特考]
作者:林俐
出版社:千華數位文化股份有限公司
出版日期:2024-11-15
$ 531 
博客來 - 新書排行榜
膽大黨 15 (首刷限定版)
作者:龍幸伸
出版社:東立
出版日期:2024-11-15
$ 221 
Taaze 讀冊生活 - 新書排行榜
引爆大潛能:讓個人潛力升級為集體能力的5大成功法則
作者:尚恩.艾科爾
出版社:時報文化出版企業股份有限公司
出版日期:2024-11-19
$ 252 
 

©2024 FindBook.com.tw -  購物比價  找書網  找車網  服務條款  隱私權政策