Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

的圖書

Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

作者：洪錦魁　
出版社：深智數位股份有限公司
出版日期：2021-10-01
語言：繁體中文

圖書選購

型式	價格	供應商	所屬目錄
電子書	$ 600	Readmoo	程式設計

圖書名稱：Python網路爬蟲：大數據擷取、清洗、儲存與分析－王者歸來

Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★
第二版和第一版做比較，增加下列內容：
★：全書增加約50個程式實例
★：網路趨勢，了解輿情
★：網路關鍵字查詢
★：YouBike資訊
★：國際金融資料查詢
★：博客來圖書排行榜
★：中央氣象局
★：租屋網站
★：生活應用
下列是本書有關網路爬蟲知識的主要內容：
★：認識搜尋引擎與網路爬蟲
★：認識約定成俗的協議robots.txt ★：從零開始解析HTML網頁
★：認識與使用Chrome開發人員環境解析網頁
★：認識Python內建urllib、urllib2模組，同時介紹好用的requests模組
★：說明lxml模組
★：XPath方法解說
★：css定位網頁元素
★：Cookie觀念
★：自動填寫表單
★：使用IP代理服務與實作
★：偵測IP ★：更進一步解說更新的模組Requests-HTML ★：認識適用大型爬蟲框架的Scrapy模組
在書籍內容，筆者設計爬蟲程式探索下列相關網站：
☆：國際與國內股市資訊
☆：基金資訊
☆：股市數據
☆：人力銀行
☆：維基網站
☆：主流媒體網站
☆：政府開放數據網站
☆：YouBike服務網站
☆：PTT網站
☆：電影網站
☆：星座網站
☆：小說網站
☆：博客來網站
☆：中央氣象局
☆：露天拍賣網站
☆：httpbin網站
☆：python.org網站
☆：github.com網站
☆：ipstack.com網站API實作
☆：Google API實作
☆：Facebook API實作
探索網站成功後，筆者也說明下列如何下載或儲存不同資料格式的數據：
★：CSV檔案格式
★：JSON檔案格式
★：XML、Pickle ★：Excel ★：SQLite 在設計爬蟲階段我們可能會碰上一些技術問題，筆者也以實例解決下列相關問題：
☆：URL編碼與中文網址觀念
☆：將中文儲存在JSON格式檔案
☆：亂碼處理
☆：簡體中文在繁體中文Windows環境資料下載與儲存
☆：解析Ajax動態加載網頁，獲得更多頁次資料
☆：使用Chromium瀏覽器協助Ajax動態加載