這本趣味的指南在探索AI與資料科學領域的奇妙世界方面,具有以下特點,並獲得學界和業界的推薦:
◆全面性:涵蓋從數據收集到機器學習模型構建的全過程,適合初學者和進階學習者。
◆工具應用:重點介紹Python及其他主要工具的應用,這些工具是當今AI與資料科學必不可少的基礎。
◆學界推薦:來自頂尖學術界專家的推薦,確保本書內容的學術性和專業性。
◆業界推薦:專業資訊人士的推薦,證明本書在實際應用和職場技能需求的價值。
◆實際案例和習題:提供豐富的實際案例和習題,有助於讀者從理論到實踐的無縫過渡,加深對知識的理解和應用能力。
本書的特點使得這本指南不僅適合想要建立堅實基礎並深入研究AI與資料科學的新手,也適合希望在這些領域中追求更高專業水準的進階學習者。無論是學術研究還是商業應用,這本書都將成為讀者實現卓越的重要工具書。
作者簡介:
黃朝健
早年投注於觸控IC和觸控模組的研發,從人因的互動設計開始進入科技業;後來負笈歐陸留學,指導教授為符號計算大師Burno Buchberger教授,同時也受業於Sepp Hochreiter教授的實驗室,後來在Hagenberg SoftwarePark的RISC公司實習,以醫療影像的研究為主,因疫情輾轉返台,遂協助大型製造業進行智慧製造的轉型,目前也受邀於雲嘉南分署、聯成電腦等企業界任教。
學經歷:
■ 奧地利林茲大學資訊系碩士畢業
■ 教育部部定講師
■ 聯成電腦 講師
■ 勞動部雲嘉南分署大數據 講師
■ 台南失業者訓練班 講師
■ 勞動部產業人才投資方案課程Python、電商行銷、數據科學 講師
■ 高雄市勞動局產業新尖兵 講師
■ 台南市伽碩職訓中心講師
■ 數發部產業發展署 講師
■ AI GO講師生成對抗網路(數發部產業發展署)
■ AIGO 講師Kaggle 數據平台實戰 (數發部產業發展署)
■ 台灣產業發展協會ESG 種子師資
■ 國立政治大學電算中心技術師
■ 義隆電子研發工程師
各界推薦
名人推薦:
★書籍推薦人:
伽碩企業有限公司附設職業訓練中心執行長 郭明洽
銘傳大學資訊科技與管理學程教授 尹邦嚴
前仁寶電腦財務主管、法藍瓷行政主管、中強光電營運主管、國巨稽核主管 鄭穎臨
日本東京農工大學 感染症未來疫学研究センター 特任助理教授 林立云
王致遠 藥師
國際商業機器股份有限公司 IBM 工程師 陳尚瑋
優貝克股份有限公司資料工程師 吳俊毅
名人推薦:★書籍推薦人:
伽碩企業有限公司附設職業訓練中心執行長 郭明洽
銘傳大學資訊科技與管理學程教授 尹邦嚴
前仁寶電腦財務主管、法藍瓷行政主管、中強光電營運主管、國巨稽核主管 鄭穎臨
日本東京農工大學 感染症未來疫学研究センター 特任助理教授 林立云
王致遠 藥師
國際商業機器股份有限公司 IBM 工程師 陳尚瑋
優貝克股份有限公司資料工程師 吳俊毅
作者序
序 言
AI 的時代來臨,加上生成式工具的大量出現;即便如此,諸如此類的工具雖然加速了開發的進程,然而使用者的背景知識卻是在詢問該工具時的一大關鍵,在國外甚至把這種詢問的技術視為一種“Prompt Engineering”,因此若無基本的開發知識和相關背景,即便透過層層詢問,也未必能獲得預期的答案,造成開發時間的落後。
因此,本書特別強調實務上的操作,以及扎實的基本Python 套件和觀念,也從基礎IDE 的實作和安裝為基本,佐以大量的生活實際案量例進行說明,這將有助於初學者快速上手,同時又能因為生活情境的導入,免於對於程式設計和開發環境的陌生而導致了對數據分析的熱情。
本書為本人累積多年數據分析的實戰經驗編輯而成,有別於市面上的工具書強調過度強調理論而無法實用、變通的抽象概念,導致有志於數據分析相關工作的朋友怯步;因此,我在家人和學生的鼓勵下決定將目前課堂範例和業界服務實務上操作和分析的手法以簡單、清楚、直觀的方式進行實作,期待閱讀本書的朋友都能受益。
本書具有以下特色,旨在讓讀者輕鬆上手,深入理解數據分析及機器學習的應用:
• Google Colabtory 入門: 透過簡單介紹Google Colabtory,本書幫助初學者擺脫繁瑣的機台安裝,讓他們能夠迅速進入數據分析的世界。
• Pandas 資料清洗: 以Pandas 進行資料清洗,讓讀者輕鬆快速地掌握資料處理的技巧,使數據處理變得更加容易上手。
• 機器學習概念簡明: 清晰簡單的機器學習概念讓初學者能夠迅速了解並判斷資料集適用的策略,為進一步的分析奠定基礎。
• 相依矩陣在製造業的應用: 從簡單的相依矩陣導入,深入解說製造業界的應用,並探討關鍵因子的挑選,讓讀者在實務中得到實際的啟發。
• 混淆矩陣與ROC 曲線: 解釋混淆矩陣和ROC 曲線的繪製方法,使讀者能夠更深入了解機器學習模型的效能評估。
• 心因性休克及糖尿病預測: 探討心因性休克、糖尿病預測以及病患用藥分析,提供實例讓讀者實際應用機器學習於醫療領域。
• ESG 永續案例: 以ESG 永續為例,展示如何利用機器學習進行碳排放預測,強調在環境領域的實際應用。
• 機台資料檢測實務: 介紹透過非監督式技術進行機台檢查的實務方法,讓讀者了解如何應用機器學習於製造業的品質檢測。
• 自來水水質分類: 使用數據分析進行自來水水質飲用分類判讀,呈現實際案例讓讀者深入了解水質監測的應用。
• 相依矩陣的關聯性分析: 透過相依矩陣找出關聯性,並進行學校輟學學生高度相關因子的分析,提供讀者實際的案例分析。
• 無人機橋樑影像檢測: 探討在大型主體建築中利用無人機進行橋樑影像檢測的方法,展現機器學習在建築領域的應用。
• 自然語言的法律應用: 引入自然語言處理在法律領域的應用,讓讀者了解如何應用數據分析於法律實務。
• 從數據科學的角度出發進行電商網站的分析: 採用數據科學方法,包括數據清理、探索性數據分析(EDA)、統計分析等,來深入了解電商網站的運作和消費者行為。
• 各大電商網站數據抓取,例如MOMO、PCHOME: 使用網路爬蟲技術,抓取各大電商網站的數據,例如MOMO、PCHOME 等,以進行後續的分析。
• 使用混淆矩陣分析消費者買單心態: 採用混淆矩陣,透過機器學習模型評估消費者的購買行為,分析其心態,了解哪些因素影響消費者的購買決策。
• 透過簡單的Pandas 套件和視覺化工具輕鬆找出電商網站的產品訂價策略: 使用Pandas 進行數據處理,並利用視覺化工具(如Matplotlib、Seaborn)找出電商網站的產品訂價策略,揭示價格變動趨勢等。
• 提供最即時的電商爬蟲程式使讀者可以輕鬆抓取: 提供最新且實用的電商爬蟲程式,使讀者能夠輕鬆地獲取最新的數據,保持分析的即時性。
• 提供Google Analytics 4 概念解說與操作工具: 解釋Google Analytics 4的概念,並提供相應的操作工具,幫助企業了解網站流量、使用者行為
等重要指標。
• Google Ads 關鍵字規劃工具有效幫助預測來年聲量: 利用Google Ads的關鍵字規劃工具,預測來年的潛在聲量,以制定更有效的行銷策略。
• Google Trend 有助產品熱門時段與地域投放廣告: 利用Google Trends,分析產品在不同時段和地域的熱門程度,有助於更有針對性地投放廣告。
• GA4 網站的操作術: 提供GA4 在網站中的操作方法,確保正確追蹤和分析網站流量。
• IFTTT 的跨平台工具整合導入電商行銷: 介紹如何使用IFTTT 整合跨平台的工具,提高電商行銷效果,自動化營銷流程。
• Line 粉絲團投放經營: 提供Line 粉絲團投放經營的相關策略和工具,以擴大品牌影響力和提高產品曝光度。
最後,本書也獻給我的家人朋友、學校任教的學生、勞動部分署Python 班的同學以及聯成電腦的同學;以及購買此書的讀者朋友,願您們都能透過閱讀或者操作本書的範例、以及淺白而樸實的說明而受益,也能透過技術的學習,
順利轉職到自己內心所屬的工作。
序 言
AI 的時代來臨,加上生成式工具的大量出現;即便如此,諸如此類的工具雖然加速了開發的進程,然而使用者的背景知識卻是在詢問該工具時的一大關鍵,在國外甚至把這種詢問的技術視為一種“Prompt Engineering”,因此若無基本的開發知識和相關背景,即便透過層層詢問,也未必能獲得預期的答案,造成開發時間的落後。
因此,本書特別強調實務上的操作,以及扎實的基本Python 套件和觀念,也從基礎IDE 的實作和安裝為基本,佐以大量的生活實際案量例進行說明,這將有助於初學者快速上手,同時又能因為生活情境的導入,免於對於程式設...
目錄
第一章:簡單的雲端IDE,從Google Colaboratory 談起
1.1 IDE: VScode的設定與安裝
1.2 Pycharm社群版的設定與安裝
1.3 Anaconda 套件的安裝細節
1.4 Jupyter Notebook的設定與排錯
1.5 Spyder 的安裝
1.6 如何壓成exe檔案及錯誤排除
1.7 Google Colaboratory的操作與環境介紹
1.8如何Mount Google driver以及寫出雲端硬碟
第二章:Pandas 資料清洗的基本功夫-讀檔、資料框的操作、合併、丟回雲端
2.1 Python的基本功
2.2 流程控制、迴圈說明
2.3 range函數的應用
2.4切片的應用
2.5 四大容器的介紹
2.6 Pandas的介紹與安裝
2.7 Pandas的讀檔與位置指定
2.8 簡單取值說明
2.9 政府資料開放平台:台南旅遊景點資料集
2.10 政府資料開放平台:韓式料理資料集
第三章:Pandas 資料清洗的進階功夫-多欄位讀取、跨列讀取、資料聚合
3.1 多欄位取值
3.2 多列位取值
3.3 取頭取尾觀察資料作法
3.4 避免錯誤編碼
3.5 資料聚合的操作1: pd.concat
3.6 資料聚合的操作2: pd.merge
3.7 字串的取代以及強制轉型的用法
3.8 跨欄位字串合併技術
3.9 清洗資料的三姊妹: isnull()、fillna()、dropna()
3.10 文字編碼的做法:標準化和正規化
3.11 綜合應用
第四章:chatGPT提示工程的實作:善用生成式工具進行開發
4.1 GPT的註冊
4.2 open AI 後臺的操作:申請API
4.3 openaAI的playground用法
4.4. Claude AI的註冊
4.5 Claude AI的操作以及極限
4.6提示工程(Prompt Engineering)說明
4.7 翻譯機器人與對話機器人實作
第五章:機器學習概論: 監督式技術 VS. 非監督式技術 VS. 強化式技術
5.1 sk-learn 套件的安裝和解說
5.2. 監督式技術概念:線性回歸
5.3. 監督式技術概念:邏輯式回歸
5.4 監督式技術概念: SVM 支援向量機
5.5 監督式技術概念:Decision Tree決策樹
5.6 非監督式技術:K-means
5.7非監督式技術:PCA (主成分分析法)
5.8 強化式學習: Q-learning
5.9 深度學習: 循環神經網路的單一時序LSTM架構
5.10 深度學習: 循環神經網路的多時序LSTM架構
第六章:相依矩陣的重要性:如何解讀參數之間的關係
6.1 相依矩陣的說明
6.2 相依係數的判讀
6.3 工業數據的應用與解讀
6.4特徵值重要性的模型介紹
第七章: 評估指標的實作: 評估預測值與評估預測模型
7.1 混淆矩陣的實作-從醫療借鏡
7.2 混淆矩陣的計算和名詞
7.3 ROC曲線及AUC的繪製與判讀
7.4 MSE 判讀
第八章:ESG基本觀念與常見名詞介紹
8.1基本名詞解釋:從淨零碳排說起
8.2聯合國永續目標
8.3 ESG介紹與評級說明
8.4聯合國線上課程永續證書考取說明
8.5 英文永續考試題目解題
8.6 so14064-1 及Iso14064-2以及Iso14064-3說明
第九章:醫療應用篇
9.1心臟突發休克的實作案例
9.2糖尿病的預測
9.3 糖尿病預測進階研究
9.4病患用藥分類
9.5乳癌數據分析
9.6腎臟病數據集分析
第十章:工業應用篇
10.1工業應用:機台數據零件故障分析
10.2工業應用:製造業生產製程分析
第十一章: 永續生活篇
11.1 ESG 台灣上市公司揭露
11.2自來水質飲用分析
11.3 建築中的無人機橋樑影像檢測方法
11.4 台灣勞動力人口預測
11.5 人口出生率預測
11.6 登革熱數據集實作
第十二章: 生命教育篇
12.1中學學生輟學學生相依性分析
12.2自殺及憂鬱語意分析
12.3司法判決書查詢系統應用實作
12.4酒駕情形分析
第十三章:商業理論
13.1 分類模型評估會員卡核發
13.2 消費者的交易心態
13.3顧客忠誠度的簡單分群計數
13.4消費者的網站拜訪路徑分析
13.5 消費者的資料儲存概念
第十四章:商業應用
14.1 Google Analytics 4的介紹
14.2 Google Analytics 4的判讀
第十五章:電商平台分析
15.1常用的視覺化套件介紹(EDA)
15.2 Google Trend 基礎操作與目標
15.3 Google Trend API 製作關鍵字點擊分析
15.4 MOMO購物網站爬蟲抓取產品數據
15.5 MOMO購物網站分析產品競價策略
15.6 PCHOME購物網站爬蟲抓取產品數據
15.7 PCHOME購物網站分析產品競價策略
15.8 PTT上各版的輿論分析-以前100篇為例
15.9 PTT上各版的文字雲製作
15.10 套裝的文字雲工具與字詞記數
15.11 家樂福購物網站抓取產品資訊
15.12 愛買購物網站抓取產品資訊
15.13 大潤發購物網站抓取產品資訊
15.14 Costco 購物網站抓取產品資訊
15.15 酷彭購物網站抓取產品資訊
15.16 591租屋網爬蟲資訊抓取
第十六章:社群營運與Line的進階應用
16.1 IFTTT跨平台串接應用:基礎設定與介紹
16.2 IFTTT 跨平台串接應用:Line 和Gmail投放
16.3 Line Notify 的權杖申請
16.4 Line Notify 訊息投放
16.5 Line 貼圖和圖片投放
16.6 Line 爬蟲及時通知系統範例
第十七章: 生成式工具導入應用
17.1 Runway AI介紹
17.2 Gamma 快速投影片生成
第十八章: 無所不在的爬蟲技術
18.1如何熬一碗美麗湯(Beautifulsoup)
18.2 BS4和requests套件說明
18.3 爬蟲系統開發說明
18.4 chatGPT開發說明
18.5 維基百科文章抓取投放
18.6 蘋果基金會文章抓投放
18.7 成大醫院門診通知抓投放
18.8 原價屋賣場標題抓取投放
18.9 NBA PTT新聞抓取投放
18.10 各家新聞抓取投放
18.11 蕃薯藤文章投放
18.12 簡訊爬蟲實作
18.13 網頁爬蟲自動化
第十九章 : 資料庫應用
19.1 SQLite 的應用
19.2 MySQL 的應用
19.3 PostgreSQL 的應用
19.4 Flask 框架呈現
第二十章: 行銷證照考取與題型解析
20.1 Google Analytics 4證照考取題目解析
20.2 Gooogle 提高離線銷售認證考取題目解析
20.3 Google Adwords 取題目解析
20.4 Line 官方粉絲團證照考取題目解析
第一章:簡單的雲端IDE,從Google Colaboratory 談起
1.1 IDE: VScode的設定與安裝
1.2 Pycharm社群版的設定與安裝
1.3 Anaconda 套件的安裝細節
1.4 Jupyter Notebook的設定與排錯
1.5 Spyder 的安裝
1.6 如何壓成exe檔案及錯誤排除
1.7 Google Colaboratory的操作與環境介紹
1.8如何Mount Google driver以及寫出雲端硬碟
第二章:Pandas 資料清洗的基本功夫-讀檔、資料框的操作、合併、丟回雲端
2.1 Python的基本功
2.2 流程控制、迴圈說明
2.3 range函數的應用
2.4切片的應用
2.5 四大容器的介紹
2.6 Pandas的介紹...