作者-張晨然 -FindBook 找書網

圖書名稱：AI+IoT佈建邊緣運算：電腦視覺業界專案原理及實作

※本書結構

本書共5篇，第1篇、第2篇重點介紹以YOLO為代表的一階段物件辨識神經網路；第3篇、第4篇重點介紹物件辨識神經網路在雲端和邊緣端的部署，其中對邊緣端的量化原理進行了重點介紹；第5篇重點介紹當前較為流行的自動駕駛的資料計算原理和物件辨識。本書實用性非常強，既適合對電腦視覺具有一定了解的高等院校大學生、所究所學生及具有轉型意願的軟體工程師入門學習，又適合電腦視覺工程項目研發和營運人員參考閱讀。

第1篇，以知名電腦視覺競賽任務為例，旨在介紹物件辨識應用場景下的基本概念和約定，以及資料標注工具和格式，讓讀者具備特徵融合網路、預測網路的設計能力。對於資料後處理技術則介紹了解碼網路、資料重網路拓樸路、NMS演算法等後處理演算法，在此基礎上結合各式各樣的骨幹網路，讀者就可以架設完整的一階段物件辨識神經網路模型了。

第2篇，旨在介紹物件辨識神經網路的訓練全流程。本篇從資料集製作到損失函式設計，從訓練資料監控到NaN或INF異常處理，特別是對不同損失函式的設計，進行了非常詳細的原理性闡述。相比神經網路設計，損失函式的設計是最具有可解釋性的，也是電腦視覺研究中比較容易出成果的研究方向。

第3篇，旨在運用物件辨識神經網路的訓練成果，架設完整的物件辨識推理模型。推理模型支援雲端部署和邊緣端部署。對於雲端部署，以主流的亞馬遜雲端為例介紹；對於邊緣端部署，以GoogleCoral開發板為例，介紹神經網路量化模型的基礎原理和模型編譯邏輯。

第4篇，結合作者主導過的智慧交通、智慧後勤等專案，旨在介紹實際電腦視覺資料增強技術，以及神經網路性能評估的原理和具體應用。本篇還結合應用同樣廣泛的算能科技（比特中國）SE5邊緣計算閘道和瑞芯微RK3588邊緣計算系統，介紹實際專案中如何使用邊緣計算硬體加速人工智慧的產業化應用。根據邊緣計算硬體特性對神經網路進行針對性修改，是真正考驗一個開發者對神經網路理解程度的試金石。跟隨本書介紹熟練掌握2～3款邊緣計算硬體，就能更快速地將電腦視覺應用到實際生產中，在具體應用中創造價值。

第5篇，旨在將讀者引入三維電腦視覺中最重要的應用領域之一：自動駕駛。圍繞KITTI資料集，本篇介紹了自動駕駛資料的計算原理，並重點介紹了PointNet++等多個三維物件辨識神經網路。

附錄列表說明了本書所參考的物件辨識原始程式碼、Python運行環境架設，以及TensorFlow的基本操作。對基本操作有疑問的讀者，可以根據附錄中的說明登入相關網站進行查閱和提問。

作者簡介：

張晨然
作者大學畢業於天津大學通訊工程專業，碩士研究所學生階段就讀於廈門大學，主攻嵌入式系統和數位訊號底層演算法，具備紮實的理論基礎。

作者先後就職於中國電信集團公司和福建省電子資訊（集團）有限責任公司，目前擔任福建省人工智慧學會的理事和企業工作委員會的主任，同時也擔任Google開發者社區、亞馬遜開發者生態的福州區域負責人，長期從事電腦視覺和自然語言基礎技術的研究，累積了豐富的人工智慧專案經驗，致力於推動深度學習在交通、工業、民生、建築等領域的應用落地。作者於2017年獲得高級工程師職稱，擁有多項發明專利。

本書作者GitHub帳號是fjzhangcr。

作者序

數位化時代的核心是智慧化。隨著人工智慧技術的逐步成熟，越來越多的智慧化應用不斷湧現，這必然要求資訊行業從業人員具備一定的人工智慧知識和技術。人工智慧最突出的兩個技術應用領域是電腦視覺和自然語言。電腦視覺處理的是圖型或視訊，自然語言處理的是語音或語言。由於電腦視覺採用的CNN神經元結構提出較早，技術方案也較為成熟，因此本書著重介紹電腦視覺技術。

在整個電腦視覺領域，本書重點說明二維和三維物件辨識技術，主要基於兩方面的考慮：一方面，物件辨識技術是當前電腦視覺中最具有應用價值的技術，大到自動駕駛中的行人和車輛辨識，小到智慧食堂中的餐盤辨識，應用領域非常廣泛，無論是日常生活中的視訊監控，還是專業領域的路面鋪裝品質監控，都是物件辨識技術的具體應用演繹；另一方面，物件辨識神經網路一般包含骨幹網路（特徵提取網路）、中段網路（特徵融合網路）、預測網路（頭網路）、解碼網路、資料重網路拓樸路、NMS演算法模組等單元，這些演算法模組單元組成了基於深度學習的神經網路設計哲學，後續的注意力機制或多模態神經網路可以被視為這些模組的不同實現方式。

從電腦視覺的新手到物件辨識專家的進階過程，要求開發者不僅要具備資料集和骨幹網路設計的基本技能，也要具備中段網路、預測網路的設計技能，更要具備根據邊緣端部署和雲端部署的要求，調整網路結構的能力。可以說，學會了物件辨識技術，開發者就擁有了電腦視覺的完整技術堆疊，就具備了一個較為全面的技能去應對其他電腦視覺專案。

本書的程式設計計算框架採用TensorFlow，它是深度學習領域應用最為廣泛的程式設計框架，最早由Google公司推出，目前已被廣泛用於全球各大人工智慧企業的深度學習實驗室和工業生產環境。網際網路上大部分的人工智慧前端成果都是透過TensorFlow實現的。TensorFlow提供比較齊全的資料集支援和快速的資料管道，支援GPU和TPU的硬體加速。TensorFlow支援多種環境部署。開發者可透過TensorFlow Serving工具將模型部署在伺服器上，也可透過TensorFlow Lite工具將模型轉為可在邊緣端推理的TFLite格式。TensorFlow升級到2.X版本之後，可支援EagerMode的立即執行模式，這使得它的程式設計更加直觀和便於偵錯。

本書並不執著於講授高深的電腦視覺基礎理論，也不是簡簡單單地堆砌若干程式樣例，而是採用了「理論」「程式」「資料流程圖」一一對應的書寫方式。理論有利於讀者建立知識的深度，程式有利於讀者培養動手能力，資料流程圖有利於讀者快速領會演算法原理。希望本書作者對電腦視覺技術的「抽絲剝繭」，能幫助讀者在建立電腦視覺能力地圖時，不僅具有理論理解的深度，還具有動手實踐的寬度。

最後，為避免混淆，有必要厘清兩個概念——人工智慧和深度學習。人工智慧是指使電腦應用達到與人類智慧相當的水準，深度學習是指運用深度神經網路技術使電腦應用達到一定的智慧水準。人工智慧指向的是「效果」，深度學習指向的是「方法」，二者不能畫等號。實現人工智慧目標的方法肯定不止深度學習這一種，還包含傳統的資訊化手段和專家邏輯判斷。但以目前的技術水準，深度學習所能達到的智慧水平是比較高的，所以大家一般都用人工智慧來指代深度學習，也用深度學習來指代人工智慧，因此本書對二者不做嚴格的區分。

顯示全部內容

第1篇一階段物件辨識神經網路的結構設計
第1章物件辨識的競賽和資料集
1.1電腦視覺座標系的約定和概念
1.1.1 圖型的座標系約定
1.1.2 矩形框的描述方法約定
1.2 PASCAL VOC競賽和資料集
1.2.1 PASCAL VOC競賽任務和資料集簡介
1.2.2 PASCAL VOC2007資料集探索
1.3 MS COCO挑戰賽和資料集
1.3.1 MS COCO挑戰賽的競賽任務
1.3.2 MS COCO資料集簡介
1.4 物件辨識標注的解析和統計
1.4.1 XML檔案的格式
1.4.2 XML檔案解析和資料均衡性統計
第2章物件辨識神經網路整體說明
2.1 幾個著名的物件辨識神經網路 ...

顯示全部內容