★ 美國《中美郵報》、英國《華商報》、西班牙《僑聲報》、日本《日中商報》、南非《非洲時報》等世界各大媒體好評推薦!
★ 阿里巴巴集團—馬雲、河北省副省長—陳剛好評推薦!
★ 全國信標委大數據、上海交通大學等知名機構好評推薦!
小數據時代,數據越大,價值越大;大數據時代,數據越大,價值越小。
如何處理博雜紛亂的海量數據,是這個時代最重要的問題。本書提出以激活數據學解決數據爆炸、數據擁堵的問題。激活數據學的核心是將人類認知能力與計算機快速運算和海量存儲的能力結合起來,是大數據時代的解決方案。
激活數據學的應用,將帶領我們走進人機共治的新時代,自動駕駛、城市大腦、醫療影像、智能語音四大應用場景已有突破性進展。
本書探討的主題是大數據時代激活數據學的提出、運行機理及場景應用。
全書分為九章。第一章探討超數據時代的數據擁堵問題;第二章提出激活數據學作為解決方案;第三章至第七章介紹激活數據學的五個運行階段,分別是數據搜尋、關聯融合、自激活、熱點減量化及群體智能;第八章描繪激活數據學的四大應用場景,分別是自動駕駛、城市大腦、醫療影像及智能語音;第九章預示雲腦時代的到來。
本書特色:
‧ 團隊專業:匯聚大數據相關專業的研究者、管理者和決策者
‧ 理論創新:提出激活數據學的理論,結合人類智慧與機器智能
‧ 案例翔實:聚焦自動駕駛、城市大腦、醫療影像、智能語音四大應用場景
各界好評推薦:
「數據是驅動商業向前發展的核心,更是人類社會的未來。這不僅僅是技術的升級,更是思想意識的巨大變革,我可以肯定地說,這無疑是一個波瀾壯闊的大時代。」
——馬雲 阿里巴巴集團
「塊數據強調的是數據、演算法、場景融合應用的價值體系,是大數據時代的價值觀和方法論。數據、演算法、場景是治理科技的三大核心要素。」
——日本《日中商報》
「共用是新一輪科技革命和產業變革的關鍵力量,借助共用,人類文明必將走向更高階段。可以說,基於數據力與數據關係提出的『共用價值理論』,是繼剩餘價值理論之後頗具革命性的理論。」
——南非《非洲時報》
「互聯網帶來了超越空間的資訊傳遞、共用與價值交換、增值,卻面臨著從無界、無價、無序走向有界、有價、有序的挑戰。《塊數據3.0》提出的主權區塊鏈,為從信息互聯網、價值互聯網向秩序互聯網的演進帶來了暢想空間。」
——英國《華商報》
「面對超數據時代帶來的數據擁堵難題,《塊數據4.0》運用啟動數據學有效挖掘、分析大數據背後人的運行規律,把超數據從『厚』做到『薄』,從『大』做到『小』,為大數據時代清除認知障礙,平衡利益矛盾,讓不確定性對抗確定性成為可能。」
——西班牙《僑聲報》
「《塊數據5.0》圍繞構建以人為原點的數據社會學理論與方法,創新性地提出數據進化論、數據資本論、數據博弈論的理論體系,研究和探索人與技術、人與經濟、人與社會的內在關係,以此分析人的行為、把握人的規律、預測人的未來。」
——美國《中美郵報》
「本書適合互聯網的創業者閱讀,適合企業管理者閱讀,適合金融家及投資者閱讀……本書同樣適合政府公職人員閱讀。」
——陳剛 前貴州省委常委、貴陽市委書記
作者簡介:
大數據戰略重點實驗室
成立於2015年4月,是貴陽市人民政府及北京市科學技術委員會共建的跨學科、專業化、國際化、開放型研究平台,是中國大數據發展新型高端智庫。
大數據戰略重點實驗室依托北京國際城市發展研究院和貴陽創新驅動發展戰略研究院,建立了大數據戰略重點實驗室北京研發中心和貴陽研發中心,批准成立了貴州省塊數據理論與應用創新研究基地、貴州省城市空間決策大數據應用創新研究基地和貴州省文化大數據創新研究基地,並建立了中央黨校研究基地、全國科學技術名詞審定委員會研究基地、浙江大學研究基地、中國政法大學研究基地和中國(綿陽)科技城研究基地,構建了「兩中心、三平台、五基地」的研究新體系和區域協同創新新格局。
大數據戰略重點實驗室研究推出的《塊數據》、《數據法》、《主權區塊鏈》「三部曲」是大數據理論發展新的里程碑,被譽為重構數字文明新秩序的三大支柱,在國內外具有較大影響。
章節試閱
第八章
激活數據學的應用場景
數據量爆發式地增長,數據維度越來越豐富,這些都為人工智能的發展和應用提供了良好的「土壤」,運算力的提升大幅度推動人工智能的進步,深度學習算法在自動駕駛、城市大腦、醫療影像、智能語音等方面的突破性進展促進了對人工智能的研究和應用,比如已經具備了感知層的基礎技術。同時,人工智能的成果也反過來讓數據產生更大的價值,成為真正的「智能數據」,兩者相輔相成、相互促進,讓各種數據應用越來越智能化、人性化。未來已來,我們正在邁入「人工智能+」時代。
人工智能時代是一個更加開放、更加複雜的巨大系統,可以對不確定性和不可預知性實現更加精準的預測。激活數據學以發現塊數據內海量複雜數據的潛在關聯和預測未來為目標,以複雜理論的系統思想為主要範式,探索其理論基礎和運行規律,並且嘗試用量化手段進行模型構建。激活數據學的基礎是人工智能的飛速發展,人機交互推動高度數據化的智能與高度智能化的數據相互融合,對高度關聯的數據進行碰撞與激活,進而實現對不確定性和不可預知性的精準把控,推動人工智能的快速持續發展。
第一節 激活數據學下的自動駕駛
(一)智能駕駛引領新一輪工業革命
伴隨著新一代信息技術的發展,汽車行業正在朝著智能化方向發展,智能網聯汽車已成為未來戰略的制高點。搭載先進的車載傳感器、控制器、執行器等裝置,並融合現代通信與網絡技術,推動了汽車工業的革命。與此同時,通過車與人、路、雲端等智能信息交換、共享,具備複雜環境感知、智能決策、協同控制等功能的智能駕駛技術開始廣泛應用,使汽車駕駛變得更簡單、更安全。大數據、互聯網、高精度地圖與智能駕駛技術相結合,共同推動了無人駕駛汽車技術的發展。可以預見,繼車聯網、新能源汽車等優化創新舉措之後,智能駕駛技術必將重新規劃、改變現有的汽車產業格局,帶來汽車、交通等諸多產業的重塑,成為第四次工業革命的引領者。
無人駕駛智能汽車,也可以稱為「輪式移動機器人」,主要依靠車內以計算機系統為主的智能駕駛儀來實現自動駕駛。車載傳感器負責感知車輛周圍環境,並根據感知獲得道路、車輛位置和障礙物信息,控制車輛的轉向和速度,因此車輛能夠安全、可靠地在道路上行駛。無人駕駛汽車是集計算機技術、模式識別、導航定位以及智能控制等於一體的高新技術發展的產物。儘管當前在技術、法律、倫理上還存在諸多問題,但相信隨著人類科技進步的突飛猛進,以及社會文明的高度發展,這些問題都會在不久的將來迎刃而解,汽車駕駛員將真正解放手腳,安享駕乘樂趣。
從技術的層面來看,無人駕駛汽車的自動駕駛系統主要包括環境感知、定位導航和智能控制三大系統。
環境感知。要實現真正的無人駕駛,感知技術的突破是關鍵。與人類的眼睛和耳朵等感知器官相類似,無人駕駛汽車可以利用多種傳感器實現對汽車信息與周圍環境信息進行獲取。無人駕駛汽車中主要應用的傳感器包括如下幾種。第一,攝像機,它是無人駕駛汽車中的視覺傳感器,負責對地面標識、標線、行人、其他車輛、紅綠燈和車燈信息等進行獲取。第二,聲音傳感器,無人駕駛汽車中應用的聲音傳感器主要負責對其他車輛鳴笛與所需關注聲音做出檢測。第三,車輛狀態傳感器,主要應用的是GPS和北斗導航系統等,提供車輛位置與行駛速度等方面的有效信息。第四,雷達,通過發出諸如激光束等探測信號對周圍環境做出有效的感知,進而對靜止或運動的物體進行相應的檢測。環境感知系統相當於駕駛員的眼睛和耳朵,是用攝像頭、超聲波傳感器、雷達等一系列部件組成的感知模塊,去感知周圍環境。
定位導航。無人駕駛汽車中應用的定位導航系統相當於駕駛員的地圖,主要負責對自身所處地理位置進行確定,是無人駕駛汽車實現路徑規劃與任務規劃最為重要的支撐。導航定位技術主要有自主導航技術與網絡導航技術兩類。自主導航技術主要是指沒有定位輔助功能,無須外界提供協助便可實現導航。自主導航技術是在本地存儲相應的地理空間信息,全部計算過程均在終端完成,在所有情況中都能有效地進行定位。但這一技術存在的顯著弊端是設備計算資源相對較少,致使其計算能力不足,可能出現定位不準或者是導航不及時等問題。網絡導航技術能夠隨時利用無線網絡與交通信息中心開展信息交互,移動設備利用移動網絡實現和連接有互聯網的WebGIS(網絡地理信息系統)服務器進行信息交互,利用服務器對地圖存儲與複雜計算進行功能執行,使用者能夠從服務器進行地圖數據方面的下載,網絡導航技術具有存儲容量無限制與計算能力強等優勢,並且地圖數據能夠持續進行更新。
智能控制。智能控制系統相當於駕駛員的大腦和手腳,分析和處理收集來的信息,並發出指令控制速度和方向,正如駕駛員駕駛車輛一樣,找到當前道路環境下的預瞄點,並加以控制。目前正在試驗階段的百度無人駕駛汽車就是一台移動的電腦,擁有看、聽、說、思考、決策、行動等能力,而這些能力都是百度多年積累下來的能力。比如百度的語音識別、圖像識別、機器學習等技術優勢,全都為無人車提供了重要支撐。因為車輛本身具備綜合規劃系統,所以適當地採取合理的防禦性駕駛策略,並將經驗相對豐富的駕駛人員作為最重要的學習對象,通過已經確定的信息不斷修正不確定的信息,確保無人駕駛汽車的智能決策和控制相對可靠、安全。依照實際的道路狀況分析,也可及時地做出道路限速規劃,由此提高行駛效率。另外,無人駕駛汽車還需要車聯網等系統的支持,以確保高效、安全運行。
(二)激活數據學在無人駕駛中的應用場景
Apollo(阿波羅)是一個開放的、完整的、安全的平台,其技術核心是「百度汽車大腦」,具有高精度地圖、定位、感知、智能決策與控制四大功能模塊。它將幫助汽車行業及自動駕駛領域的合作夥伴結合車輛和硬件系統,快速搭建一套屬於自己的自動駕駛系統,提供包括「車輛平台、硬件平台、軟件平台、雲端數據服務」等在內的完整軟硬件和服務體系,百度還將開放環境感知、路徑規劃、車輛控制、車載操作系統等功能的代碼或能力,並且提供完整的開發測試工具。
目前,隨著無人駕駛汽車技術不斷進步,複雜情況技術處理等問題成為制約其進一步發展的瓶頸。從激活數據學理論看,無人駕駛汽車系統本質上就是一個複雜的塊數據系統,包括給定規則,通過數據搜索、關聯分析、自激活、熱點減量化、智能碰撞等環節提前填入規則,根據給定的規律變化狀態來解決問題,相當於具備人類一定的聯想和演繹能力。另一方面,基於激活數據學的複雜系統包括更多的自身系統和周邊系統,能通過各種智能設備界定安全區間、辨別環境、規劃路線、自主決策等反應,讓無人駕駛汽車技術更加安全,實現對不確定性和不可預知性的精準把控。
數據搜索,精準預控。感知是自動駕駛工業當前的創新重點,無人駕駛汽車的感知模塊將多個傳感器組合在一起,通過人工智能技術,每一輛車都能看清、看懂路況,看到每一個行人、每一個車輛、每一個障礙物。從激活數據學理論看,在數據搜索階段,主要是提高感知系統的性能,以及提高對不確定性情況或因素的智能感知,通過智能搜索感知環境,獲取到關聯的數據,並在分析前期關聯的基礎上,預見性地進行自主搜索,為更精準的預判搜集全面的數據資源來實現車道保持所需的高精度定位,進而能實現多類障礙物目標檢測。
關聯融合,安全把控。在數據搜索階段獲得物體信息後,再經過預測模塊的計算,將生成預測軌跡傳遞給決策規劃控制系統中的行為決策模塊。關聯融合是激活數據學所講的預處理階段。其目的不是將所有數據集中在一起,而是以產生多元價值為目標將多種數據源中的相關數據提取、融合、梳理、整合成一個分析數據集。這個融合結果是個獨立和靈活的實體,可隨數據源的變化重組、調整和更新。激活數據學中的關聯融合更強調系統和全面,根據深層、微觀的數據關聯融合,反饋作用於數據搜索,進行相關數據資源的匯集整合,為激活數據學中的自激活提供了不斷優化的、動態的數據資源基礎,使用大數據技術以及最安全的駕駛策略,可以精準控制每一輛車,適合各種不同的路況。
自激活,實時掌控。目前的智能汽車已經具備領先的高精地圖與傳感器的能力融合,能夠為每一輛車提供低成本、全天候的精準定位。同時,利用深度神經網絡自主學習的特性,通過高性能將龐大複雜的神經網絡模型訓練好,然後移植到嵌入式開發平台,從而對圖像視頻信息進行了實時高效的處理。改進的深度學習算法通過對多攝像頭信息融合處理,模擬人的雙眼生成立體空間圖像,從而輕鬆判斷距離,實現更好的自動控制功能。接下來,基於激活數據學中的數據單元實現自激活的過程,將極大地提高學習效率和預測能力,類似於人類神經系統中神經元的活動情形,讓經驗變得更可靠,讓判斷更準確,讓一切都在實時掌握之中。
熱點減量化,效用管控。因為車輛本身具備綜合規劃系統的特性,所以適當地採取合理的防禦性駕駛策略,運用經驗相對豐富的駕駛人員作為最重要的學習對象,才能確保無人駕駛汽車的智能決策和控制相對可靠、安全。在激活數據學的熱點減量化階段,通過降低數據噪聲,排除不準確、失去時效性、關聯度不高的策略,保證最終數據處理的分析結果更加準確。採取減量化的數據分析路徑,還能在有限成本約束的條件下實現數據價值挖掘的最大化,依照實際的道路狀況分析,也可及時地做出道路限速規劃,由此提高行駛效率。決策規劃模塊根據實時路況、感知模塊輸出、道路限速等信息做出相應的軌跡預測和智能規劃,將同時兼顧安全性和舒適性,進一步提高行駛效率。
智能碰撞,系統聯控。通過百度的DuerOS(對話式人工智能系統)平台,分析一些聯網的汽車,可以更好地實現全語音交互智能,目的就是為更多的用戶提供最實際的幫助,滿足生活需求,比如地圖的導航功能、智能問答及個性化的音頻內容等,都可以憑藉開放平台的優勢,提高車場景的多維度能力。這也正是激活數據學中智能碰撞所強調的「喚醒萬物」的理論基礎。感知模塊所輸出的物體信息包括位置、速度、朝向以及物體分類(如汽車、行人、自行車)等物理屬性,加上麥克風陳列、回聲消除、語音喚醒、遠場識別等智能技術,並將這些植入家庭場景、移動場景、車載場景三位一體的智能碰撞系統中,輸出的各類主體參與智能碰撞,同時結合物體和周邊環境信息,以及積累的歷史數據知識和智慧數據,實現對感知到的物體做出更為宏觀、精準的行為預測。
(三)激活數據學為智能駕駛提供理論依據
汽車軌跡規劃及智能決策是實現汽車智能化的關鍵技術之一,激活數據學下的智能駕駛路徑選擇是以激活數據學為理念支撐和技術支撐的,促進智能駕駛有效解決軌跡選擇、精準定位、智能控制等的相關問題,智能化連接車與車、人與人、人與社會,真正實現汽車能和人一樣會思考、判斷、行走,探索出符合智能駕駛需求的新路徑。
激活數據學構建的人機交互模式。交互方式主要是指用戶、產品和環境之間的信息交流的形式,經歷了從原始式交互、適應式交互到符合人們認知習慣的自然式交互的過程。目前人機交互的主要方式是人下達命令,由機器去執行,在這個過程中,人的命令不能有失誤,否則就無法實現正確的操作,這會導致安全隱患和糟糕體驗。例如,強光強照、積雪霧霾等惡劣行駛環境會對環境感知系統帶來影響,因為智能汽車在一些物體識別(水窪和深坑)、感知複雜的人類手勢信號等方面與人類仍有差距。語音交互在實際的運用過程中其實並不是很成熟,手勢交互現階段只能完成一些簡單的交互。因此,傳統汽車向無人駕駛汽車的過渡仍然還有很長的路要走。
激活數據學以發現塊數據內海量複雜數據的潛在關聯和預測未來為目標,以複雜理論的系統思想為主要範式。在基於激活數據學的應用場景下,未來自然的人機交互應是以情景識別為主,即智能機器通過環境來預知人的需求。未來汽車的人機交互系統擁有更安全、更穩定的技術,滿足更智能、更人性化的需求,都是以集合汽車、人工智能、心理學等不同領域的知識來完成這一複雜系統的。此外,激活數據學的算法模型可通過深度學習的視覺算法提升感知能力,相比傳統的視覺算法,它能從不同距離、不同角度進行識別,既可以識別奇形怪狀的車輛,也可以識別被遮擋的車輛。
激活數據學連接的全方位車聯網。無人駕駛汽車的技術原理主要是通過車載傳感器來感知車輛周圍環境,並根據感知所獲得的道路、車輛位置和障礙物等一系列信息,控制車輛的轉向和速度,因此涉及多種最新的電子和機械技術,包括自動控制、人工智能、視覺計算等。隨著計算機科學技術、無線通信技術以及交通運輸業的高速發展,車輛導航系統的動態路徑規劃研究趨勢還將向多導航器相互協調規劃的方向發展。現在的車輛導航都是以單個車輛為對象進行路徑引導,沒有考慮到總體的大局協調,這樣容易引起新的交通擁堵等問題,所以多導航器協調規劃將是一種更加符合實際需求的規劃方法。
基於激活數據學應用下的智能系統是一個全方位的車聯網系統,實現車內、車與車、車與路、車與人、車與服務平台的全方位網絡連接,有助於實現智能交通,從根本解決交通安全難題。首先,一旦駕駛員出現超速、疲勞駕駛、不按規定線路行駛等違章行為,車載終端將自動報警警示駕駛員。其次,緩解交通擁堵。在智能交通體系內行駛,可提高城市道路的通行能力,減輕交通擁擠,減少停車次數和行車時間。因此,使用智能系統可以提升汽車智能化水平和自動駕駛能力,構建汽車和交通服務新業態,提高交通效率,改善汽車駕乘感受,為用戶提供智能、舒適、安全、節能、高效的綜合服務。
激活數據學實現的精準預測反饋。智能汽車根據傳感器輸入的各種參數生成期望的路徑,並將相應的控制量提供給後續的控制器。所以決策規劃是一項重要的研究內容,決定了車輛在行駛過程中車輛能否順暢、準確地完成各種駕駛行為。決策規劃是自動駕駛的關鍵部分之一,決策規劃按照劃分的層面不同可分為全域規劃和局部規劃。全域規劃是由獲取到的地圖信息,規劃出一條在一些特定條件下的無碰撞最優路徑。局部規劃則是根據全域規劃,在一些局部環境信息基礎上,避免撞上未知的障礙物,最終到達目標點的過程。基於定位信息、感知模塊提供的障礙物信息、對障礙物運動的預測,並根據當前車輛的狀態同時考慮安全與舒適度,計算車輛運行的路徑。
基於塊數據理論模型下,激活數據學是動態的,它處於不斷發展進化之中,而且對未來的變化具有預測能力,並迎合未來的變化。首先,將多個傳感器的輸出數據統一在車輛坐標系下,建立具有時間標記的數據融合和關聯分析,以保證場景數據信息的連貫性和適用性。其次,在接收到智能傳感器感知融合信息後,智能算法開始學習外界場景信息,從全域的角度規劃具體行駛任務,實現智能車輛擬人化控制融入整個交通流。最後,根據局部環境信息、上層決策任務和車身實時位置數據信息,在滿足一定的運動學約束下,為提升智能汽車安全、高效和舒適性能,規劃決斷出局部空間和時間內容,也就是車輛期望最優的運動軌跡,包括行駛軌跡、速度、方向、狀態等決策反饋,進而實現對不確定性和不可預知性的精準把控。
第二節 激活數據學下的城市大腦
(一)城市大腦:城市的數據智能中樞
城市是人類的偉大創造,但由於人口、工業、交通運輸過度集中而造成的城市病正四處蔓延。在《智慧地球:下一代的領導議程》中,「智慧地球」的理念被明確地提出來,其目標是讓社會更智慧地發展,讓人類更智慧地生存,讓地球更智慧地運轉。在此基礎上,智慧城市這一概念孕育而生,成為中國城市建設的目標並得到大力推進。在智慧城市的發展上,依託雲計算、大數據、移動互聯網、電商平台方面的先進技術,建立橫向平台,把縱向交通、醫療政務等數據整合到一個平台上,開展更深層次的智慧城市運營洞察。智慧城市的建設需求在不斷鞭策智能化、信息化技術的升級革新。
城市是數據密集型場景,整個城市擁有龐大的軀體,但還缺乏統一指揮的大腦。智慧城市只做了城市的手和腳,所有的決策還是依賴人,缺乏自主控制。城市大腦要做的是給城市配置一個高智商、能決策的智能中樞,去提升手腳和軀體的效率。城市大腦和智慧城市的邊界,就在於對數據的運用。智慧城市的基礎在於利用監控攝像頭,是用硬件基礎設施來搜集數據的,而城市大腦則是利用數據創造新價值。
在2016杭州.雲棲大會上,杭州市政府公佈了一項「瘋狂」的計劃:為這座城市安裝一個人工智能中樞——杭州城市數據大腦。杭州城市數據大腦是這座城市的人工智能中樞。城市大腦的內核採用阿里雲ET人工智能技術,可以對整個城市進行全域實時分析,自動調配公共資源,修正城市運行中的bug(故障),最終進化成為能夠治理城市的超級人工智能。
國內城市使用的SCATS信號燈控制系統是由國外引進,並不適合中國的「混合型」交通現狀。尤其是當城市建設導致線圈採集設備大面積損壞時,這相當於SCATS系統的「眼睛」被蒙蔽了,控制信號燈的效果比理論預期差很多,且無法實現基於全域的決策判斷。城市大腦引入了地圖數據、攝像頭數據等,相當於城市大腦具備了「天眼」,能夠從城市上空俯瞰全域。同時,城市大腦採用了阿里雲自主研發的網絡流控制理論,可以實現對網絡阻塞點的全面量化。
數據與智能將成為未來的趨勢。對於城市而言,城市大腦可以將散落在各個角落的數據匯聚到一起,使用雲計算大數據和人工智能技術,讓城市的各個「器官」協同工作,變成一個能夠自我調節、與人類良性互動的有機體。
(二)激活數據學優化城市大腦的系統應用
當下城市的自我思考能力有所欠缺,資源價值沒有被完全釋放出來,很多都沉睡在數據中心的硬盤上,成為庫存、成本。只有釋放出來,流動的數據才會產生價值。一個城市的智慧程度,取決於這個城市大腦的中樞神經上的信息流通,如今的傳感器網絡,5G時代的到來都能夠很好承載信息流通。數據的融會貫通取決於在線計算的能力,所以要選擇城市的場景,利用城市大腦來梳理智慧城市。
實現城市大腦,要解決幾個層面的問題。首先,是數據集中的問題。要做到數據集中,各個系統要有相對應的數據,如公交有公交系統的數據,公安有公安系統的數據,而城市大腦第一步要做的是把所有的數據堆放在一起。其次,是建模的問題。有了數據,還需要把這些數據建模,有了模型,後續數據處理才能得到有效解決。最後,是數據優化和機器學習的問題。通過數據化和機器學習,成為交通指揮官。城市大腦由五大系統組成——超大規模計算平台、數據採集系統、數據交換中心、開放算法平台、數據應用平台。基於激活數據學下的城市大腦系統能夠有效解決以上幾個問題。
優化超大規模計算平台。城市大腦涉及的數據量巨大,如此龐大的數據量面臨的挑戰也隨之增加。激活數據學下的超大規模計算平台是其他幾個系統的運行載體,並處於同一個內部循環的狀態。結合激活數據學,超大規模計算平台首先將主動搜索城市各個系統的數據並不斷進行深度學習,然後探索城市各系統之間數據的關聯性,進行關聯性分析。再通過多智能體技術對城市數據系統中出現的複雜性問題進行建模,自主的深化學習並模擬人類做決策,從而篩選出對於城市問題解決最有價值的數據。讓人與機器的群體智能共同協作以保證大腦能夠真正實現眼疾手快、當機立斷。
優化數據採集系統。數據質量是大數據面臨的一大挑戰。如何從雜亂的數據中提取準確無誤的關鍵信息,是數據集聚中最難解決的問題之一。激活數據學下的數據採集系統猶如人的「末梢神經」和「小腦」(執行層),源源不斷地向城市大腦輸送數據。告別於傳統的機械式搜索,它具備高度的洞察感知力,快速實現精準匹配。搜索範圍更全面,效用更高。在海量的城市數據中,進行最有效的關聯分析,運用最有價值的數據。
當解決城市擁堵時,基於計算機視覺仿真、雷達測速、智能圖像分析和快速檢索等技術,它將整合道路監測設施和信息獲取終端,實時動態監測和收集車流量、客流量信息,結合各種道路監控設施及交警指揮控制系統數據進行智能搜索,並不斷互補、修正,進而獲得範圍更廣、精度更高、可靠性更強的交通信息,為決策系統及時掌握道路交通狀態並做出決策提供效用最大化的數據價值。
優化數據交換中心。隨著城市數據規模呈爆發式增長,越來越多的數據帶來了大量的應用價值和商機,但是數據量的高速膨脹、數據無意義的冗餘、數據原有關聯的割裂又對信息的充分利用形成嚴重制約,同時不同的數據可能關於某一時間、空間、人物、事件或者對象是相互關聯的,現有的數據組織和處理並未充分體現這些關聯性,而這些關聯性往往對解決城市的管理與服務問題具有重要價值。
激活數據學下的數據交換中心,猶如人類整個大腦的「腦核」(基礎層),從交叉需求導向出發,通過政府數據、互聯網和社會數據的全面融合,提高數據的多維性和多樣性,然後探索城市各系統數據之間的內在關聯性。如在城市治堵中,對不同來源的交通數據進行數據精煉、融合重構,從而對三元空間數據進行關聯表達,讓其在複雜的城市交通數據中,更清晰地構建車輛與人流之間,車輛與車輛之間,車輛與道路監控系統之間的相互聯繫,刻畫整個交通狀況的全貌,為整個城市交通數據之間的深度融合建立一個通道。假如發現諸如路網等設置不夠合理的問題,就可快速在規劃環節進行全面優化調整,趨近科學理想化,從而有效解決傳統調研中無法掌握足夠樣本量、無法將跨界大數據整合分析、無法量化計算、無法呈現和分析規劃後的可能場景等問題。
優化開放算法平台。城市數據的價值激活需要開放算法平台作為重要支撐。激活數據學下的開放算法平台就像是人大腦的「皮質層」(決策層),在這個決策層中有多個智能體,這些智能體能夠通過學習來「激活」個體智能,採用深度學習的方法模擬人類做決策。與此同時,它會向生命體、活系統進化,能夠自生長、自成長、自修復。
結合激活數據學的運行原理,開放算法平台通過各種信息收集途徑,如在城市交通數據系統中的車管數據、駕管數據、車輛實時卡口數據、道路狀況數據、道路擁堵情況數據等,利用多智能體技術構建複雜自組織系統來模擬智能產生的過程,構建出算法模型,再通過機器學習反覆優化和迭代,向交通管理者提出更好的建議。
優化數據應用平台。在對數據進行分析決策後還有一個重要步驟就是「激活」,主要是把「大腦」的決策輸出到城市管理和城市服務的各個場景。在激活數據學下,城市大腦將幫助靜態的城市管理體系向動態的生態系統轉型。在多層次的篩選機制上,平台會將有限的計算和存儲資源分配給最具價值的城市數據單元。在此基礎上,依據激活數據學所能模擬的智能群體,在智能碰撞階段將最優結果匹配輸送到相對應的各個場景之中。比如對每個路口紅綠燈的時間設置,要優化出最佳通行效率;對交通卡口的監控實施調配,保障有效運轉;對公交車輛和線路進行合理調度,甚至對於道路施工維修進行良好規劃等情況,平台會智能識別需求,篩選出最有價值的數據並通過智能群體做出最優決策方案輸送到各個需求系統。感知是數字城市的功能,控制和智能服務是智慧的高級階段,激活數據學將數據的最大價值匯流到城市發展中。
(三)激活數據學讓城市大腦更智慧
城市大腦目前主要體現在交通安全領域,而隨著城市中各種各樣的數據開始匯聚到城市大腦裡面,諸如生態環境、工業生產、衛生健康、服務業等都會成為其中一部分,這對城市大腦的能力又會提出更多的要求。在城市大腦項目中,數以百億計的城市交通管理數據、公共服務數據、運營商數據、互聯網數據被集中輸入,這些數據成為城市大腦智慧的起源。在激活數據學下,這些數據將能發揮最大效用提供精準化的城市服務,構建全域的城市治理新模式以及人機共治的智能社會。
構建全域的城市治理新模式。作為「最強有力的創新加速器」,人工智能技術必將得到更大發展。激活數據學結合城市大腦將會在城市治理的各個領域發揮效用,如智慧治堵、智慧旅遊、智慧氣象等方面。交通擁堵,只是城市大腦迎戰的第一個難題。在智慧治堵方面,城市大腦結合整個城市數據,把脈整個城市的交通情況,對症下藥,並能融合多方系統為城市的整體出行情況進行把控。例如在旅遊方面,城市大腦可以將城市中每年接待的遊客真正變成「用戶」,當遊客剛踏上當地城市的那一刻,城市大腦便可以為其提供個性化的服務。在智慧氣象方面,城市大腦還可以對水庫、河道、泵閘等進行大數據採集、分析,結合天氣數據,提前預測汛情和城市內澇。城市大腦結合激活數據學的應用,讓數據幫助城市來做思考和決策,將每座城市都打造成一座能夠自我調節、與人類良性互動的城市。
構建人機共治的智能社會。社會數據化,數據社會化。就數據的本性而言,它對所有人都是平等的。激活數據學將數據這種平等價值效用發揮到最大,讓每個數據都能創造出自身價值並且還能有效利用。當城市大腦得益於這些價值時,城市大腦才被真正賦值。在激活數據中的智能碰撞階段,人類與機器協同強化湧現出的群體智能將超越個體智力,從而高效地解決複雜問題。面對社會發展的多元需求,人與機器相伴相行共同治理,創造出和諧生態的社會,這才是數據智能的真正價值。
第三節 激活數據學下的醫療影像
(一)人工智能賦能醫療影像
借助互聯網的連接,近年來就醫效率和體驗得到了極大提升,但醫療的最大痛點——資源不均衡的矛盾並沒有得到根本性的解決。醫療是一個數據密集型、腦力勞動密集型、知識密集型的行業,需要依賴強大的知識儲備和處理分析能力進行判斷、診療。同時失誤「零容忍」使得醫療領域從基礎層藥物研發、檢測,到應用層預防、診斷、治療、康復、健康管理等各環節都面臨嚴格的質量和監管要求。
技術的發展大幅提高了醫療數據處理效率和洞察深度,如IBM「沃森」閱讀10.6萬份臨床報告僅需17秒。借助深度學習、自學習、自分析、自判斷以及不知疲倦等優勢,人工智能可將醫療失誤降低30%~40%。基於人工智能的技術優勢和應用,其賦能醫療行業的價值將是不可估量的。醫療與人工智能的結合,正在成為新的爆發點。
目前,人工智能對肺病、胃癌、甲狀腺癌變、乳腺癌、皮膚病等多個病種的醫學圖像檢測效率和識別精度都可以達到甚至超越專業醫生水平。除此之外,人工智能可以大幅提高讀片效率,以及減少人為失誤。以肺病為例,針對平均超過200層的肺部CT(電子計算機斷層掃描)掃描圖片,醫生人工篩查需要20分鐘甚至更長,而人工智能僅需數十秒。
現代醫學是建立在實驗基礎上的循證醫學,醫生的診療結論必須建立在相應的診斷數據上,影像是重要的診斷依據,醫療行業80%~90%的數據都來源於醫學影像。所以臨床醫生有極強的影像需求,他們需要對醫學影像進行各種各樣的定量分析、歷史比較,從而完成一次診斷。醫療信息化正步入融合創新階段,即集成和融合人工智能、機器人、虛擬現實/增強現實等技術打造面向可預測、可預防以及精準醫療的健康解決方案。其中,人工智能被寄予厚望,有著廣泛的應用場景。作為三大治療手段之一,醫學影像的精準識別對醫生決策至關重要。癌症、心臟疾病等許多重大疾病都可以在早期通過醫學影像設備識別出來。
在「人工智能+醫療影像」領域,騰訊打造的首個應用在醫學領域的人工智能產品——騰訊覓影,就是具體體現。「騰訊覓影」聚合了騰訊公司內部包括人工智能實驗室、優圖實驗室、架構平台部等多個頂尖人工智能團隊的能力,把圖像識別、大數據處理、深度學習等領先的技術與醫學跨界融合研發而成。通過與國內10多家三甲醫院建立人工智能醫學聯合實驗室,「騰訊覓影」已經進入大規模的臨床預試驗,並且顯示出人工智能對醫療行業的「賦能」效果——通過「騰訊覓影」,一個食管癌內鏡檢查診斷用時不到四秒,能輔助醫生大大提升對早期食管癌的檢出率。
「騰訊覓影」以開放平台的角色,成為各家醫院以及醫療系統服務商的基礎支撐。通過這個平台,各地的醫院可以獲得頂尖醫療機構的醫療能力,尤其是重大疾病和疑難雜症的診斷和治療能力。騰訊的人工智能醫療影像平台「騰訊覓影」,具備人工智能+醫療的創新先進性,以及推動整個人工智能+醫療生態圈發展的開放能力。
(二)激活數據學在醫療影像中的應用策略
全世界在人工智能醫學影像上還沒有突破瓶頸,這在於從數據的獲取端出發,我國的醫學影像還處於從傳統膠片向電子數據過渡的階段,大量的影像資料還沒有實現電子化和數據化。再加上數據源頭多、類型多、結構複雜、標準不統一等特徵,導致要獲得真正高質量的有效數據,需要花費高昂的成本,這是一個巨大的成本黑洞,單靠一家醫院或企業很難解決,需要上升到行業層面予以突破。
人工智能+醫學影像,是將人工智能技術具體應用在醫學影像的診斷上,在國外主要分為兩部分:一是圖像識別,應用於感知環節,其主要目的是將影像這類非結構化數據進行分析,獲取一些有意義的信息;二是深度學習,應用於學習和分析環節,是人工智能應用的最核心環節,通過大量的影像數據和診斷數據,不斷對神經元網絡進行深度學習訓練,促使其掌握「診斷」的能力。
醫學影像數據實際上是報告+影像。單單分析影像本身還不夠,更重要的是對影像本身所對應的診斷報告也加以分析。中國的影像診斷報告呈現出因醫生而異的顯著特點,這取決於影像診斷醫生的個人習慣、執業醫院、教育背景、導師影響等因素,不同地區不同醫院的影像報告標準不同。所以將人工智能具體應用在醫學影像診斷上,除了通行的圖像識別和深度學習之外,還有一個前提:如何將80%的非結構化數據轉化為結構化數據。在這個基礎上,具有無線想像空間的醫療數據才具有落地的實現價值。滿足以上三個條件才意味著能夠將人工智能具體應用到醫學影像的診斷上。人工智能能否成功,條件只有一個,那就是海量數據,沒有海量的數據就沒有意義。針對這些問題,激活數據學提供了解決的可能,結合激活數據學的運行機理,其具體路徑如下。
數據搜索。數據搜索是激活數據學的第一步,對於影像採集模塊,在龐大的影像數據中,主動搜索數據,通過深度學習,從影像數據庫中抽取最能匹配的影像數據。目前大數據技術主要是對網頁數據與日誌數據進行整理、交叉分析、比對,從而對數據進行深度挖掘,為用戶提供個性化的迭代分析能力。隨著非結構化數據的特徵提取(指紋、圖像、語音自動識別、基因數據比對等),以及半結構化數據的內容檢索、理解(語義分析)等技術不斷取得進展,圖像大數據挖掘的研究也日益深入。圖像大數據挖掘的主要目標是從中提取出圖片的自身特徵,包括語義、質量、關聯度、實體義項等。以往那些以結構化為主的數據形式,不再能滿足圖像分析所需。在激活數據學下,面向知識本身的數據模型將逐步建立起來,這些模型能夠支持用戶的任務與決策,還可以支持數據自動與其任務標的、屬性相結合,對圖像背後隱藏的需求進行挖掘,為與周邊環境信息進行關聯計算打下堅實的基礎。
關聯融合。激活數據學中的關聯融合是探索數據的內在關聯性,對於預處理模塊中的提取影像特徵,用數據精煉、融合重構的方法對特徵信息進行關聯表達,並把特徵信息存放在特徵數據庫中,利用影像特徵信息進行匹配查詢。由於各種醫學成像設備的原理不同,反映的信息也各有側重,單純從一種成像模式所獲得的信息是不全面的。如果把不同模態圖像的特徵性信息提取出來,將各自的優勢集為一體,融合成一幅可視化程度更高、信息更豐富的圖像,將有利於綜合診斷和分析,其最突出的優點在於能夠充分地利用多種成像模式的互補性,取長補短,得出一個綜合的、立體的結果。
自激活。在自激活這個階段,結合激活數據學的運行機理,應用類似於大腦神經突觸聯結的結構進行信息處理的數學模型,具有自組織、自學習、自處理、自適應性和很強的非線性特點。利用多智能體技術構建複雜自組織系統來模擬智能產生的過程,對複雜的醫學圖像分割、配準、融合、壓縮、重建等方面的問題進行建模,對樣本數據集進行訓練和學習,得到具有相當分類精度的分類模型。在通過這個特定的模型運算後,自激活系統會有一個結果輸出,這個結果能優化數據,做出決策,由於存在多個自激活系統,所以會輸出多個圖像數據的處理結果,這為複雜的多模態的疾病診斷提供了多維的解決方案。
熱點減量化。由於在自激活系統出現了多種方案,所以需要熱點減量。在熱點減量化階段,可基於多層次的篩選機制,對影像數據進行算法分析,最具價值的數據單元留下,以發現數據的主題、特徵、關係等規律為精準識別圖像做準備。這個階段對於解決醫療圖像中背景知識不清楚、推理規則不明確和比較複雜的分類問題來說極為重要。通過熱點減量,有價值的洞察力為診斷結果提供支持或否認的假設判斷,為最終的決策輸出做出精準的預判。
智能碰撞。在智能碰撞階段,人類與機器協同,根據分類模型對未標記的影像數據集進行自動分類判別,從而精準高效地判識問題。這個階段也是找尋最優解的過程,第一個就是個體本身所找到的最優解,另一個極值是整個種群目前找到的最優解,即人機結合所做出的最優解。醫學影像上一共可以分為2,000多個的病種,解決一個單病種已經不是簡單的事情,更何況病種與病種之間的差異度也很大,所以,人工智能+醫學影像需要頂級醫學專家和頂級機器學習學者通力合作才有可能成功。目前還沒有通用的方法對任意醫學圖像都能取得絕對理想的處理效果,傳統經典的圖像處理方法在考慮醫學圖像實際特點的基礎上,若能結合激活數據學理論,採用多種類型的方法結合與改進使用,相互彌補算法功能的缺陷,這也將會是醫學圖像處理技術一個重要的發展方向。
(三)激活數據學提升醫療影像價值
為了解決時間有限性和診斷準確性的問題,將人工智能引入數字病理學研究是最好的辦法。激活數據學下的人工智能可以更大程度地縮短病理診斷的時間、提升診斷效率,最主要的是,它還能提供更加準確的診斷結果。激活數據學下的人工智能可以真正幫助病理醫生提升判讀水平,從精準診斷開始,真正實現精準醫療。
輔助診斷的廣泛運用。智能輔助診斷憑藉計算機模擬醫生的思維和診斷推理,給出可靠的診斷。人工智能在醫療影像方面的應用在對比精細化程度上顯然優於傳統醫生肉眼觀察分析。醫療數據規模和數據結構化能力是智能輔助診斷技術競爭的核心壁壘。結合激活數據學,在工作原理上,輔助診斷的第一步通過自然語言處理學習、理解和歸納醫療信息,包括權威醫學書籍文獻、診療指南和病歷等海量信息,自動構建一個大規模的「醫學知識圖譜」,類似機器大腦的「醫學知識庫」;第二步用領先的深度學習技術去學習海量臨床診斷案例,再對比數十萬機器與專家的診斷數據後,持續優化模型,不斷提升其診斷能力,得出基於醫學影像、檢查檢驗結果、病史等多個維度的深度診斷,給出具體病症預測。這為醫生提供了更好的決策基礎,能輔助他們更快、更有效地理解病案,提升診療效率。
精準醫療的進一步實現。精準醫療是由基因醫學、轉化醫學、個性化醫療演變而來的,基於系統學方法,利用大數據分析,實現患者驅動的醫療管理的新醫學模式。作為下一代診療技術,精準醫療具有重要的理論和實踐意義。一方面,精準醫療理論研究有利於完善數據科學學科體系,豐富和創新臨床及轉化醫學研究;另一方面,基於大數據的精準醫療服務可以實現在合適的時間給予患者以合適的治療,保障醫療安全,改善醫院經營管理。實施精準醫療的前提是,必須建立起一個龐大的生物信息數據庫,並有與之相配的健康人體和疾病群體的大數據分析、海量數據高效整合、高通量信息資源共享等支持,實現精準醫療是一項非常困難的系統工程。在整個醫學影像中,醫學大數據一定會影像先行,結合激活數據學實施智能搜索。然後利用雲計算的方法增加連接性,利用深度學習的方法挖掘大數據的價值,利用發現數據的方法在更多的維度中挖掘原來淺關聯或弱關聯的關係,利用三者的關聯大大提高醫療診療效率,再結合激活數據學的使用,積累優質、大量的數據;高性能計算環境;優化的深度學習方法;三者資源配齊就會構建不斷提升的狀態的模型。在過去,醫生在解讀圖像的時候遇到的一個難題就是需要尋找關注點,比如說有一些非常細微、非常不易查找的地方就可能被人們忽略。基於激活數據學中的自我學習及深度學習,就可以找到診斷和治療所需要的信息或細微之處。此外,還會引發自動化產品的出現,自動化的產品會極大地提高診斷的效率。可以肯定,激活數據學下的機器自我學習比以前只憑醫生的肉眼和經驗來識別一些更加細微的病症更為準確,這些最終推動精準醫療的進步。
第四節 激活數據學下的智能語音
(一)智能語音交互:進階的交互模式
隨著互聯網的蓬勃發展,未來以聽覺、視覺、手勢等融合起來的多通道人機交互、以虛擬現實技術為支撐的計算機系統和以智能手機、智能手環、智能車載為主導的小型智能設備,勢必會重新定義互聯網的生態系統,成為科技領域中新的探索方向。在越來越細分的領域,語音交互作為多通道人機交互中的一環,勢必會成為不可抵擋的未來發展趨勢。
語音交互與傳統的人機交互相比,更專注於在某些特殊場合下,肢體或視線被佔用時,利用語音去完成運作,比如開車時利用語音對車內功能進行操作。語音交互使人機界面同時具備了「聽」和「說」的能力,在互聯網服務化的時代,語音將解放人們的雙手,降低移動互聯網的使用門檻,讓輸入更便捷,服務效率更高,從而成為移動互聯網發展的一個里程碑。
完整的語音交互過程分為三個步驟:聽清、聽懂、滿足。聽清:當用戶的聲音從麥克風輸入時,應有拾音器記錄用戶聲音,並準確地進行識別,將最終結果反饋給人工智能大腦。在這個過程中,需要軟硬件以及算法去處理所有聲音,取其精華,棄其糟粕,最終記錄真正的指令。聽懂:在大腦拿到結果後,要對其進行解析,將語音轉為文字,並進行語義分析,需要強大的算法和機器學習能力不斷去糾錯。區分和判斷哪些是命令詞,哪些是內容詞,最終普通的一句話要被拆分為命令、內容等相關類型詞。滿足:當人工智能大腦理解了一句簡單的話後,接下來的就是滿足用戶需求。用戶如需要查詢,便去告訴他相應內容;用戶如需要執行動作,便去完成整個動作流程。
智能語音交互最典型的應用方式是語音助手、語音搜索。語音助手的最終目標就是讓用戶解放雙手,完全使用語音操作系統。目前在機器語音輸入和輸出方面有很多研究,但是大多數研究都只是處理一些簡單的、固定的詞語和句子,然後通過計算機程序編譯輸出一些比較機械化的語言。對於人類複雜的說話、語境語義的理解研究還停留於起步階段。人類有著非常複雜的語言,每個國家每個地域的語言變化、詞匯使用都不一樣,即便是同一個人,其聲音、發音以及聊天方式都會隨其個人狀態、身處的環境以及遇到的人發生相應的變化。因此,要想讓計算機對用戶的情緒和所處環境更為了解,賦予計算機更多的人類觀察能力和更多情緒、情感能力,研究者需要在情感化設計與智能交互方面做大量的研究與探索。
從目前市場上智能家電、智能硬件等產品的發展趨勢來看,鍵盤輸入、手機App(安裝在智能手機上的軟件)、體感交互、圖像識別等多種人機交互並存。但是隨著大數據、機器學習、雲計算、人工智能等技術的發展,語音交互正一步步解放用戶的雙手,語音輸入框也大有取代鼠標、鍵盤之勢。伴隨著智能移動設備的普及,語音交互作為一種新型的人機交互方式,已引起整個IT業界的重視。
第八章
激活數據學的應用場景
數據量爆發式地增長,數據維度越來越豐富,這些都為人工智能的發展和應用提供了良好的「土壤」,運算力的提升大幅度推動人工智能的進步,深度學習算法在自動駕駛、城市大腦、醫療影像、智能語音等方面的突破性進展促進了對人工智能的研究和應用,比如已經具備了感知層的基礎技術。同時,人工智能的成果也反過來讓數據產生更大的價值,成為真正的「智能數據」,兩者相輔相成、相互促進,讓各種數據應用越來越智能化、人性化。未來已來,我們正在邁入「人工智能+」時代。
人工智能時代是一個更加開放、更加複雜...
作者序
總序
大數據是什麼並不重要,重要的是大數據改變了人們對世界的認識。大數據不僅改變了貴州和貴陽對世界的認識,更重要的是也改變了世界對貴州和貴陽的認識。貴州和貴陽已經成為中國大數據發展的戰略策源地,並正在成為引領全球大數據發展的重要風向標。這個戰略策源地和重要風向標的主要標誌就是以塊數據為核心的理論創新,搶佔了大數據發展的理論制高點和國際話語權。
應該肯定,塊數據是貴州和貴陽發展大數據理論創新和實踐探索的產物。如果說,大數據第一次讓貴州和貴陽站在了世界面前,那麼,在這面前的正是標誌著大數據時代真正到來的塊數據。塊數據對未來文明的改變和推動已經超出所有偉大預言家的預測,這一史詩般劇碼的序幕正在拉開或者剛剛拉開。事實上,對塊數據的認識和研究從來沒有停歇過,我們建構了一個從1.0到5.0的塊數據理論體系,試圖探索和揭示塊數據的本質、規律和價值。正如我在《塊數據2.0:大數據時代的範式革命》一書主編序中描述的那樣:「這是一場由科技引發的社會變革,它將改變我們的思維方式和生活方式,改變世界上物質與意識的構成,改變我們的世界觀、價值觀和方法論。我們不得不更多地關注它、研究它和把握它,因為我們每個人都置身其中。這也是我們必須對塊數據肅然起敬,並持續探尋的根本動因。」
不僅如此,我們的研究發現,塊數據具有更加深遠的意義:
第一,塊數據是大數據時代真正到來的標誌。新一輪科技革命和產業變革正處於重要交匯期。隨著信息技術和人類生產生活交匯融合,我們已進入以大數據為標誌的信息化發展新階段。人類將以塊數據為標誌,真正步入大數據時代。塊數據就是把各個分散的點數據和分割的條數據匯聚在一個特定平台上並使之發生持續的聚合效應。這種聚合效應通過數據多維融合與關聯分析對事物作出更加快速、更加全面、更加精準和更加有效的研判和預測,從而揭示事物的本質和規律,推動秩序的進化和文明的增長。簡言之,塊數據就是研究數據運動規律的數據哲學。數據是運動的,數據運動是有規律的,數據運動所揭示的是數字文明時代秩序的增長。我們認為,塊數據是大數據發展的高級形態,是大數據融合的核心價值,是大數據時代的解決方案。
第二,塊數據是數據、算法、場景融合應用的價值體系。數據、算法、場景是治理科技的三大核心要素。其中,數據是基礎,算法是手段,場景是目的。塊數據價值鏈是實現超越資源稟賦的價值整合,是以全產業鏈、全服務鏈和全治理鏈為核心的價值體系。通過數據、算法、場景的疊加效應,在塊數據系統架構下減量化的數據採集、數據傳輸、數據存儲、數據分析和數據應用的數據觀和方法論,為我們建構一個融合技術流、物質流、資金流、人才流、服務流的價值系統。以發現塊數據內海量複雜數據的潛在關聯和預測未來為目標,以複雜理論的系統思想為主要範式,實現對不確定性和不可預知性更加精準的預測。從條數據到塊數據的融合,人類社會的思維模式和行為範式將產生顛覆性變革。這種變革的文化力量就是以人為原點的數據哲學,它不僅革新了我們的世界觀、價值觀和方法論,而且開啟了我們的新時代、新生活和新未來。
第三,塊數據引領和催生新的組織模式,成為改變未來的新力量。塊數據既是一種經濟模式,也是一種技術革新,更是一種新的世界觀、價值觀和方法論,引領和催生新的組織模式。物物互聯、業業互聯、人人互聯,構成一個自組織、自激活的數據實時流動、共用、聚合的數據化網路生態圈。這個生態圈通過外部資源強化自身戰略地位,實現組織的再平衡。塊數據組織是一個資源分享、平台無限擴展的超穩定組織結構源,預示著組織發展的新方向。無邊界組織、自組織、雲組織等,都可以看作一種正在萌芽和生長著的塊數據組織。利他主義的數據文化是構成塊數據組織的理論基石,其出發點是數據人假設。塊數據組織中,數據力上升為組織的核心競爭力。數據力與數據關係影響著社會關係,這將引發整個社會發展模式前所未有的變革和重構。所有這一切,都預示著塊數據組織「平台化、關聯度和聚合力」三位一體所帶來的的強大組織勢能,實現組織的自激活和自適應環境變化,是組織存續與發展的根本動力所在,並最終形成共用型組織新範式。
第四,啟動數據學成為人工智能時代大數據發展新的解決方案。數據無序增長預示著超數據時代的來臨。小數據時代,數據越大,價值越大;大數據時代,數據越大,價值越小。人類對未來的把握和勝算,在於數據被有效存儲的同時又被迅速激活。我們沒有把大數據僅僅看作所謂的「大」的數據,而是把大數據看作一種「活」的數據,因為只有激活,大數據才有生命,才能成為未來世界人們賴以生存與發展的土壤和空氣。我們探索用生命科學的方法解決數據擁堵問題,以數據社會學的思維打開沉澱的數據寶藏。塊數據就是數據通過算法作用於場景,這種作用的動力就是激活數據學,它為我們尋找這小部分的有效數據提供了解決方案。作為一種理論假說,激活數據學就像一座朝向深邃的大數據宇宙的「天眼」。它是未來人類進入雲腦時代的預報,是關於混沌的數據世界的跳出決定論和概率論的非此即彼、亦此亦彼的複雜理論的大數據思維範式革命。
第五,塊數據提出的數據進化論、數據資本論、數據博弈論或將成為數字文明的「新三論」。美國學者塞薩爾‧伊達爾戈的《增長的本質》一書被譽為「21 世紀經濟增長理論的重要里程碑」。因為本書提出了一個重要觀點,經濟增長的本質是信息的增長,或者說秩序的增長。他認為,善於促進信息增長的國家會更昌盛。我們提出的數據進化論、數據資本論和數據博弈論,正是重構數位文明時代人與技術、人與經濟、人與社會的新秩序。我們的研究認為,數字文明時代增長的本質不是GDP 的增長,而是文明的增長和秩序的增長。新「三論」的提出,對社會結構、經濟機能、組織形態、價值世界進行了再塑造,對以自然人、機器人、基因人為主體的未來人類社會構成進行了再定義,對以數據為關鍵要素的新型權利範式和權力敘事進行了再分配。這既是研究未來生活的宏大構想,也是研究未來文明增長和秩序進化的重大發現。
我們對塊數據的研究才剛剛開始。數據驅動、算法驅動、場景驅動下的雲腦時代正在到來,激蕩著我們對於未來所有的憧憬和渴望。
我們永遠在路上。
連玉明
大數據戰略重點實驗室主任
2019年12月
總序
大數據是什麼並不重要,重要的是大數據改變了人們對世界的認識。大數據不僅改變了貴州和貴陽對世界的認識,更重要的是也改變了世界對貴州和貴陽的認識。貴州和貴陽已經成為中國大數據發展的戰略策源地,並正在成為引領全球大數據發展的重要風向標。這個戰略策源地和重要風向標的主要標誌就是以塊數據為核心的理論創新,搶佔了大數據發展的理論制高點和國際話語權。
應該肯定,塊數據是貴州和貴陽發展大數據理論創新和實踐探索的產物。如果說,大數據第一次讓貴州和貴陽站在了世界面前,那麼,在這面前的正是標誌著大數據時代...
目錄
總序
主編序
緒論 大數據時代的解決方案
第一章 超數據時代的數據擁堵
第一節 小數據時代、大數據時代和超數據時代
第二節 奇點來臨:數據大爆炸
第三節 數據擁堵與數據治理
第二章 激活數據學:基於塊數據理論的解決方案
第一節 複雜理論與塊數據
第二節 激活數據學的提出
第三節 激活數據學與數據激活機理
第三章 數據搜索:智能感知
第一節 智能感知與交互
第二節 搜索引擎:連接人與信息
第三節 搜索引擎到人工智能的終極演進
第四章 關聯融合:智能聚合
第一節 人腦信息的處理與融合
第二節 智能數據處理
第三節 數據融合:構建新型數據關係
第五章 自激活:智能決策
第一節 腦認知與類腦計算
第二節 讓機器像人一樣思考
第三節 智能判斷與決策
第六章 熱點減量化:智能篩選
第一節 遺忘,是為了更好的記憶
第二節 刪除,數據取捨之道
第三節 篩選,選擇最優決策
第七章 群體智能:智能碰撞
第一節 頭腦風暴:發現好想法和做出好決策
第二節 群體學習:從個體智能到群體智能
第三節 群體空間:人腦智慧和機器智能的交互
第八章 激活數據學的應用場景
第一節 激活數據學下的自動駕駛
第二節 激活數據學下的城市大腦
第三節 激活數據學下的醫療影像
第四節 激活數據學下的智能語音
第九章 雲腦時代:開啟數字文明新紀元
第一節 驅動雲腦時代的「三駕馬車」
第二節 區塊鏈:人工智能任性發展的「保險閥」
第三節 數權法與數字文明新時代
參考文獻
術語索引
後記
總序
主編序
緒論 大數據時代的解決方案
第一章 超數據時代的數據擁堵
第一節 小數據時代、大數據時代和超數據時代
第二節 奇點來臨:數據大爆炸
第三節 數據擁堵與數據治理
第二章 激活數據學:基於塊數據理論的解決方案
第一節 複雜理論與塊數據
第二節 激活數據學的提出
第三節 激活數據學與數據激活機理
第三章 數據搜索:智能感知
第一節 智能感知與交互
第二節 搜索引擎:連接人與信息
第三節 搜索引擎到人工智能的終極演進
第四章 關聯融合:智能聚合
第一節 人腦信息的處理與融合
第二...