本書以AI圖像生成為主線,串聯講解了Stable Diffusion、DALL·E、Imagen、Midjourney等模型的技術方案,並帶着讀者訓練一個自己專屬的AI圖像生成模型。
本書共6章。第1章先介紹身邊的AIGC產品,再講解AI圖像生成相關的深度學習基礎知識,包括神經網絡和多模態模型的基礎知識。第2章講解AI圖像生成技術,從VAE到GAN到基於流的模型再到擴散模型的演化,並詳細介紹擴散模型的算法原理和組成模塊。第3章講解Stable Diffusion模型的核心技術。第4章講解DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體模型的核心技術。第5章講解Midjourney、SDXL和DALL·E 3的核心技術。第6章是項目實戰,使用LoRA技術對Stable Diffusion模型進行微調,得到特定風格的AI圖像生成模型。
南柯,某頭部互聯網公司AIGC團隊技術負責人,高級算法專家,極客時間“AI繪畫核心技術與實戰”專欄作者,擁有十多年計算機視覺領域從業經驗,帶領團隊推動多模態生成,尤其是AI圖像生成與編輯、多模態大語言模型、數字人等熱點方向的技術建設。在ICCV和AAAI年會等AI領域頂級會議上發表過多篇論文,擁有100多項專利。