「沒有大量資料支撐的人工智慧就是人工智障」
了解人工智慧各方面,深度學習其重點技術和平臺工具
將技術應用到實際工作場景中,共同創建一個智慧的時代!
【TensorFlow】
從第一個TensorFlow程式的簡單介紹開始,涵蓋了過擬合、特徵工程等核心概念,為讀者提供了穩固的基礎。接著闡述幾個高階主題,包括特徵交叉、正則化、邏輯迴歸和分類。
【神經網路】
本章全面介紹神經網路的概念和技術。從基本的定義到如何訓練神經網路,再到多類別神經網路和嵌入技術,讀者可以獲得一個完整的神經網路知識架構。
【知識圖譜】
本章深入探討知識圖譜,從基本定義到建構的關鍵技術,再到知識運算及其應用,提供了一個全面視角,幫助讀者理解知識圖譜在現代技術中的重要性。
【資料挖掘】
本章集中於資料挖掘的概念和技術。資料挖掘是大數據領域的核心,涵蓋了資料探勘方法、大數據思維等關鍵概念,對於想要深入了解大數據領域的讀者來說,這一章節提供了扎實的知識基礎。
【AI和大數據應用於特定領域】
專門探討了AI和大數據在特定領域的應用,包括銀行、醫療等行業。不僅分析了這些領域的現況,還提供了實例分析,幫助讀者了解AI和大數據如何在實際場景中產生價值。
【附錄】
最後提供了3個附錄,為讀者提供了大數據和人工智慧的線上資料,以及本書中採用的AI中英文術語和術語列表,這對於想要進一步探索這一領域的讀者來說是非常有幫助的資源。
本書特色:本書全面講述人工智慧與大數據涉及的應用,共分8章,包括TensorFlow、神經網路、知識圖譜、資料挖掘等,詳細說明了人工智慧在各領域的潛在價值及實際案例分析。閱讀完本書後,讀者將對人工智慧技術有全面的理解,並能掌握AI整體知識架構。
作者簡介:
楊正洪,在矽谷從事AI和大數據相關研發工作十餘年,是海外智庫專家顧問,曾擔任在美上市公司CTO、北京某國企CIO和上海某國企高階副總裁等職。出版了《智慧城市》、《大數據技術入門》等多本暢銷書。
郭良越,專職作者。
劉瑋,專職作者。
章節試閱
第12章 資料挖掘
12.1 什麼是資料挖掘
資料挖掘是指有組織、有目的的收集資料、分析資料,並從大量資料中提取出有用的資訊,從而尋找出資料中存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。資料挖掘是一種從大量資料中尋找存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構的技術,是統計學、資料庫技術和人工智慧技術等技術的綜合。資料挖掘是一門涉及面很廣的交叉學科,包括數理統計、人工智慧、電腦等,涉及機器學習、數理統計、神經網路、資料庫、模式辨識、粗糙集、模糊數學等相關技術。
資料挖掘大部分的價值在於利用資料挖掘技術改善預測模型、產生學術價值、促進生產、產生並促進商業利益,一切都是為了商業價值(資料→資訊→知識→商業)。資料挖掘的最終目的是實現資料的價值,所以,單純的資料挖掘是沒有多大意義的。資料挖掘的作用是從大量資料中尋找存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。
資料挖掘技術(方法)分為以下兩大類。
預言(Predication):用歷史預測未來。
描述(Description):了解資料中潛在的規律。
12.1.1 資料挖掘技術產生的背景
資料正在以空前的速度成長,現在的資料是大量的大數據。現在不缺乏資料,但是卻面臨一個尷尬的境地──資料極其豐富,資訊知識匱乏。還有,大量的大數據已經遠遠超出了人類的理解能力,如果不借助強大的工具和技術,很難弄清楚大數據中所蘊含的資訊和知識。重要決策如果只是基於決策制定者的個人經驗,而不是基於資訊、知識豐富的資料,就極大的浪費了資料,也對我們的商業、學習、工作、生產帶來了極大的不便和龐大的阻礙。所以,能夠方便、高效能、快速的從大數據裡提取出龐大的資訊和知識是必須解決的,因此,資料挖掘技術應運而生。資料挖掘填補了資料和資訊、知識之間的鴻溝。
12.1.2 資料挖掘與資料分析的區別
資料分析包含廣義的資料分析和狹義的資料分析。廣義的資料分析包括狹義的資料分析和資料挖掘,而我們常說的資料分析就是指狹義的資料分析。
1. 資料分析(狹義)
簡單來說,狹義的資料分析就是對資料進行分析。專業的說法是,狹義的資料分析是指根據分析目的,用適當的統計分析方法及工具對收集來的資料進行處理與分析,提取有價值的資訊,發揮資料的作用。狹義的資料分析主要實現三大作用:現狀分析、原因分析和預測分析(定量)。狹義的資料分析的目標明確,先做假設,然後透過資料分析來驗證假設是否正確,從而得到相應的結論。狹義的資料分析主要採用對比分析、分組分析、交叉分析、迴歸分析等分析方法。狹義的資料分析一般都是得到一個指標統計量結果,比如總和、平均值等,這些指標資料需要與業務結合進行解讀,才能發揮出資料的價值與作用。
2. 資料挖掘
資料挖掘是指從大量的資料中,透過統計學、人工智慧、機器學習等方法挖掘出未知的、具有價值的資訊和知識的過程。資料挖掘主要側重解決4類問題,即分類、聚類、關聯和預測(定量、定性)。資料挖掘的重點在於尋找未知的模式與規律。比如,我們常說的資料挖掘案例:啤酒與尿布、保險套與巧克力等,就是事先未知的,但又是非常有價值的資訊。資料挖掘主要採用決策樹、神經網路、關聯規則、聚類分析等統計學、人工智慧、機器學習等方法進行挖掘。資料挖掘的結果是輸出模型或規則,並且可相應得到模型得分或標籤,模型得分如流失機率值、總和得分、相似度、預測值等,標籤如高中低價值使用者、流失與非流失、信用優良中差等。
總之,資料分析(狹義)與資料挖掘的本質是一樣的,都是從資料裡面發現關於業務的知識(有價值的資訊),從而幫助業務營運、改進產品以及幫助企業做更好的決策。資料分析(狹義)與資料挖掘構成廣義的資料分析。
12.2 資料挖掘技術(方法)
資料挖掘常用的方法有分類、聚類、迴歸分析、關聯規則、神經網路、特徵分析、偏差分析等。這些方法從不同的角度對資料進行挖掘。
12.2.1 分類
分類的含義就是找出資料庫中的一組資料對象的共同特點並按照分類模式將其劃分為不同的類。分類是依靠給定的類別對對象進行劃分的。分類的目的是透過分類模型將資料庫中的資料項映射到某個給定的類別中。分類的應用包括客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等。
主要的分類方法包括決策樹、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神經網路等。分類演算法是有局限性的。分類作為一種監督式學習方法,要求必須事先明確知道各個類別的資訊,並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理大量資料的時候,如果要透過預處理使得資料滿足分類演算法的要求,那麼代價非常大,這時候可以考慮使用聚類演算法。
12.2.2 聚類
聚類的含義是指事先並不知道任何樣本的類別標號,按照對象的相似性和差異性,把一組對象劃分成若干類,並且每個類裡面對象之間的相似度較高,不同類裡面對象之間的相似度較低或差異明顯。我們並不關心某一類是什麼,需要實現的目標只是把相似的東西聚到一起,聚類是一種無監督式學習方法。
聚類與分類的區別是,聚類類似於分類,但是與分類不同的是,聚類不依靠給定的類別對對象進行劃分,而是根據資料的相似性和差異性將一組資料分為幾個類別。聚類與分類的目的不同。聚類要按照對象的相似性和差異性將對象進行分類,屬於同一類別的資料間的相似性很大,但不同類別之間資料的相似性很小,跨類的資料關聯性很低。組內的相似性越大,組間差別越大,聚類就越好。
主要的聚類演算法可以劃分5類,即劃分方法、層次方法、基於密度的方法、基於網格的方法和基於模型的方法。每一類中都存在得到廣泛應用的演算法,劃分方法中有K-Means聚類演算法,層次方法中有凝聚型層次聚類演算法,基於模型的方法中有神經網路聚類演算法。聚類可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。
12.2.3 迴歸分析
迴歸分析是一個統計預測模型,用以描述和評估因變量與一個或多個自變量之間的關係。它反映的是事務資料庫中屬性值在時間上的特徵,產生一個將資料項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關係。迴歸分析反映了資料庫中資料的屬性值在時間上的特徵,透過函數表達資料映射的關係來發現屬性值之間的依賴關係。迴歸分析方法被廣泛的用於解釋市場占有率、銷售額、品牌偏好及市場行銷效果。它可以應用到市場行銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢預測及有針對性的促銷活動等。
迴歸分析的主要研究問題包括資料序列的趨勢特徵、資料序列的預測、資料間的相關關係等。
12.2.4 關聯規則
關聯規則是隱藏在資料項之間的關聯或相互關係,即可以根據一個資料項的出現推導出其他資料項的出現。關聯規則是描述資料庫中資料項之間所存在的關係的規則。關聯規則的目的(作用)是發現隱藏在資料間的關聯或相互關係,從一件事情的發生來推測另一件事情的發生,從而更好的了解和掌握事物的發展規律等。
關聯規則的挖掘過程主要包括兩個階段:第一階段為從大量原始資料中找出所有的高頻項目組;第二階段為從這些高頻項目組產生關聯規則。關聯規則挖掘技術已經被廣泛應用於金融行業企業中,用以預測客戶的需求,各銀行在自己的ATM機上透過捆綁客戶可能感興趣的資訊供使用者了解並獲取相應資訊來改善自身的行銷。
12.2.5 神經網路方法
神經網路作為一種先進的人工智慧技術,因其自身自行處理、分散儲存和高度容錯等特性,非常適合處理非線性的問題,以及那些以模糊、不完整、不嚴密的知識或資料為特徵的問題,這一特點十分適合解決資料挖掘的問題。
典型的神經網路模型主要分為三大類:第一類是用於分類預測和模式辨識的前饋式神經網路模型,其主要代表為函數型網路、感知器;第二類是用於聯想記憶和最佳化演算法的反饋式神經網路模型,以Hopfield的離散模型和連續模型為代表;第三類是用於聚類的自組織映射方法,以ART模型為代表。雖然神經網路有多種模型及演算法,但在特定領域的資料挖掘中使用哪種模型及演算法沒有統一的規則,而且人們很難理解網路的學習及決策過程。
第12章 資料挖掘
12.1 什麼是資料挖掘
資料挖掘是指有組織、有目的的收集資料、分析資料,並從大量資料中提取出有用的資訊,從而尋找出資料中存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構。資料挖掘是一種從大量資料中尋找存在的規律、規則、知識以及模式、關聯、變化、異常和有意義的結構的技術,是統計學、資料庫技術和人工智慧技術等技術的綜合。資料挖掘是一門涉及面很廣的交叉學科,包括數理統計、人工智慧、電腦等,涉及機器學習、數理統計、神經網路、資料庫、模式辨識、粗糙集、模糊數學等相關技術。...
目錄
第8章 TensorFlow
8.1 TensorFlow工具包
8.2 第一個TensorFlow程式
8.3 過擬合處理
8.4 特徵工程
第9章 TensorFlow高階知識
9.1 特徵交叉
9.2 L2正則化
9.3 邏輯迴歸
9.4 分類
9.5 L1正則化
第10章 神經網路
10.1 什麼是神經網路
10.2 訓練神經網路
10.3 多類別神經網路
10.4 嵌入
第11章 知識圖譜
11.1 什麼是知識圖譜
11.2 知識圖譜建構的關鍵技術
11.3 知識運算及應用
11.4 企業知識圖譜建設
第12章 資料挖掘
12.1 什麼是資料挖掘
12.2 資料挖掘技術(方法)
12.3 大數據思維
第13章 銀行業大數據和人工智慧
13.1 中國四大行的進展
13.2 其他銀行
13.3 金融宏觀大數據分析
13.4 小結
第14章 醫療大數據和人工智慧
14.1 醫療大數據的特點
14.2 醫療大數據處理模型
14.3 醫療大數據的AI應用
14.4 人工智慧的醫療應用場景
14.5 人工智慧要當「醫生」
14.6 醫院大數據
14.7 機器學習在醫療行業中的應用實例分析
第15章 工農業大數據和人工智慧
15.1 中國製造2025
15.2 工業大數據
15.3 AI+製造
15.4 農業大數據
附錄A 大數據和人工智慧線上資料
附錄B 本書中採用的人工智慧中英文術語
附錄C 術語列表
第8章 TensorFlow
8.1 TensorFlow工具包
8.2 第一個TensorFlow程式
8.3 過擬合處理
8.4 特徵工程
第9章 TensorFlow高階知識
9.1 特徵交叉
9.2 L2正則化
9.3 邏輯迴歸
9.4 分類
9.5 L1正則化
第10章 神經網路
10.1 什麼是神經網路
10.2 訓練神經網路
10.3 多類別神經網路
10.4 嵌入
第11章 知識圖譜
11.1 什麼是知識圖譜
11.2 知識圖譜建構的關鍵技術
11.3 知識運算及應用
11.4 企業知識圖譜建設
第12章 資料挖掘
...