2022年ChatGPT橫空問世,成為人工智慧的里程碑,而2024年一手打造ChatGPT的OpenAI又發布了文字生成影片大模型Sora,開創了視覺新紀元。只需要一行文字,Sora就能夠生成長達60秒的高精細影片,畫面不僅一鏡到底、多機位切換、完成複雜運鏡,還可呈現多變的人物及風景的動態,這意謂著使用者透過簡單的文字敘述,就能讓Sora創造出任何場景的影片,而打造出創新影片內容的無限可能性。
Sora是人工智慧領域的一次重大突破,更把多模態帶往新的發展階段。未來真正的通用人工智慧將會與人類相仿,可同時利用視覺、聽覺、觸覺等多種感知模態來理解世界,並對各種模態的資訊整合,而多模態突破的Sora加速推動了通用人工智慧的到來,拓展了人工智慧的應用領域。
Sora除了是一個文字生成影片大模型,還能理解使用者的需求在物理世界中的存在方式,其透過學習影片來理解真實世界的動態變化,並用電腦視覺技術模擬這些變化,從而創造出新的視覺內容。正如OpenAI在技術報告中所說的,Sora有望建構出能夠模擬物理世界的通用模擬器,也就是真實世界建模。
Sora的出世,也對各個產業產生巨大的影響及挑戰,像是在影音產業、廣告行銷、遊戲、醫療等多個領域上皆有巨大的應用和價值。而本書正是立基於此,內容深入淺出、循序漸進,以Sora為主題,介紹了Sora的誕生和爆發,以及Sora成功背後的技術路線,也對Sora帶來的產業變革進行細緻和深入的分析,可幫助讀者瞭解Sora,並在紛繁複雜的知識海洋中,梳理出認識人工智慧產業變革以及即將到來的通用人工智慧時代的線索。
本書特色
Sora提升影視製作的效率,引發各種形式的AI應用,具有龐大商業價值
多模態突破的Sora加速推動通用人工智慧的到來
♔ 從ChatGPT到Sora的AI技術革命
♔ Sora的誕生和爆發
♔ Sora多模態跨越式突破
♔ Sora技術報告全解讀
♔ Sora邁向通用AI
♔ Sora成功背後的技術路線
♔ Sora帶來的產業變革