購物比價找書網找車網
FindBook  
 有 10 項符合

Python網路爬蟲:大數據擷取、清洗、儲存與分析 王者歸來(第二版)

的圖書
最新圖書評論 -  目前有 2 則評論,查看更多評論
 這本書是目前市面上最新的爬蟲書...
轉載自博客來  極力推薦  2022/01/04
這本書是目前市面上最新的爬蟲書籍。結合日常豐富的範例來解說網路爬蟲清洗與儲存分析的知識,因為網頁結構時常會有變動,個人覺得買爬蟲相關的書籍一定要買最新的。
Python網路爬蟲:大數據擷取、清洗、儲存與分析 王者歸來(第二版) Python網路爬蟲:大數據擷取、清洗、儲存與分析 王者歸來(第二版)

作者:洪錦魁 
出版社:深智數位股份有限公司
出版日期:2021-10-20
語言:繁體書   
圖書介紹 - 資料來源:TAAZE 讀冊生活
圖書名稱:Python網路爬蟲:大數據擷取、清洗、儲存與分析 王者歸來(第二版)

Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)

★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★


第二版和第一版做比較,增加下列內容:
★:全書增加約50個程式實例
★:網路趨勢,了解輿情
★:網路關鍵字查詢
★:YouBike資訊
★:國際金融資料查詢
★:博客來圖書排行榜
★:中央氣象局
★:租屋網站
★:生活應用

下列是本書有關網路爬蟲知識的主要內容:
★:認識搜尋引擎與網路爬蟲
★:認識約定成俗的協議robots.txt
★:從零開始解析HTML網頁
★:認識與使用Chrome開發人員環境解析網頁
★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
★:說明lxml模組
★:Selenium模組
★:XPath方法解說
★:css定位網頁元素
★:Cookie觀念
★:自動填寫表單
★:使用IP代理服務與實作
★:偵測IP
★:更進一步解說更新的模組Requests-HTML
★:認識適用大型爬蟲框架的Scrapy模組

在書籍內容,筆者設計爬蟲程式探索下列相關網站:
☆:國際與國內股市資訊
☆:基金資訊
☆:股市數據
☆:人力銀行
☆:維基網站
☆:主流媒體網站
☆:政府開放數據網站
☆:YouBike服務網站
☆:PTT網站
☆:電影網站
☆:星座網站
☆:小說網站
☆:博客來網站
☆:中央氣象局
☆:露天拍賣網站
☆:httpbin網站
☆:python.org網站
☆:github.com網站
☆:ipstack.com網站API實作
☆:Google API實作
☆:Facebook API實作

探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:
★:CSV檔案格式
★:JSON檔案格式
★:XML、Pickle
★:Excel
★:SQLite

在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:
☆:URL編碼與中文網址觀念
☆:將中文儲存在JSON格式檔案
☆:亂碼處理
☆:簡體中文在繁體中文Windows環境資料下載與儲存
☆:解析Ajax動態加載網頁,獲得更多頁次資料
☆:使用Chromium瀏覽器協助Ajax動態加載

作者簡介:

洪錦魁

一位跨越電腦作業系統與科技時代的電腦專家,著作等身的作家。
■ DOS 時代他的代表作品是 IBM PC 組合語言、C、C++、Pascal、資料結構。
■ Windows 時代他的代表作品是 Windows Programming 使用 C、Visual Basic。
■ Internet 時代他的代表作品是網頁設計使用 HTML。
■ 大數據時代他的代表作品是 R 語言邁向 Big Data 之路。
■ 人工智慧時代他的代表作品是機器學習彩色圖解 + 基礎數學與基礎微積分 + Python實作。

除了作品被翻譯為簡體中文、馬來西亞文外,2000 年作品更被翻譯為Mastering HTML 英文版行銷美國,近年來作品則是在北京清華大學和台灣深智同步發行:

1:Java 入門邁向高手之路王者歸來
2:Python 最強入門邁向頂尖高手之路王者歸來
3:Python 最強入門邁向數據科學之路王者歸來
4:Python 網路爬蟲:大數據擷取、清洗、儲存與分析王者歸來
5:演算法最強彩色圖鑑 + Python 程式實作王者歸來
6:網頁設計HTML+CSS+JavaScript+jQuery+Bootstrap+Google Map 王者歸來
7:機器學習彩色圖解 + 基礎數學篇 + Python 實作王者歸來
8:機器學習彩色圖解 + 基礎微積分篇 + Python 實作王者歸來
9:R 語言邁向Big Data 之路
10:Excel 完整學習邁向最強職場應用王者歸來

他的近期著作分別登上天瓏、博客來、Momo 電腦書類暢銷排行榜第一名,他的書著作最大的特色是,所有程式語法會依特性分類,同時以實用的程式範例做解說,讓整本書淺顯易懂,讀者可以由他的著作事半功倍輕鬆掌握相關知識。

作者序
這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約404個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,若是和第一版做比較,這本書增加下列內容:
1:全書增加約50個程式實例
2:網路趨勢與網路關鍵字查詢
3:國際金融資料查詢
4:YouBike
5:博客來圖書排行榜
6:租房網站
7:中央氣象局
8:生活應用

在Internet時代,所有數據皆在網路呈現,從網路獲得資訊已經成為我們日常生活的一部份。然而如何從網路上獲得隱性的數據資訊,更進一步做將此數據資訊做擷取、清洗、儲存與分析的有效應用,已經是...
顯示全部內容
目錄
第零章 認識網路爬蟲
0-1 認識HTML
0-2 網路地址URL
0-3 爬蟲的類型
0-4 搜尋引擎與爬蟲原理
0-5 網路爬蟲的搜尋方法
0-6 網路爬蟲是否合法
0-7 認識HTTP 與HTTPS
0-8 表頭(headers)

第一章 JSON 資料與繪製世界地圖
1-1 JSON 資料格式前言
1-2 認識json 資料格式
1-3 將Python 應用在json 字串形式資料
1-4 將Python 應用在json 檔案
1-5 簡單的json 檔案應用
1-6 世界人口數據的json 檔案
1-7 繪製世界地圖
1-8 XML

第二章 使用Python 處理CSV 文件
2-1 建立一個CSV 文件
2-2 用記事本開啟CSV 檔案
2-3 csv...
顯示全部內容
圖書評論 -   評分:
 這本書是目前市面上最新的爬蟲書...
轉載自博客來  極力推薦  2022/01/04
這本書是目前市面上最新的爬蟲書籍。結合日常豐富的範例來解說網路爬蟲清洗與儲存分析的知識,因為網頁結構時常會有變動,個人覺得買爬蟲相關的書籍一定要買最新的。
 雖然我不是工程師,只是跟風學習...
轉載自博客來  極力推薦  2021/11/16
雖然我不是工程師,只是跟風學習Python 。這本書的實例很多,也解析許多過程會遇到的問題,例如在爬蟲過程中,可能遇到最多的是HTTP和HTTPS協議。如果你不理解「從瀏覽器的輸入URL到頁面返回經歷了什麼過程」,就沒辦法成功爬取網站資料。
大推這本初學者好上手的書。
贊助商廣告
 
 
Taaze 讀冊生活 - 暢銷排行榜
我可能錯了:森林智者的最後一堂人生課
作者:比約恩.納提科.林德布勞、卡洛琳.班克勒、納維德.莫迪里
出版社:先覺出版
出版日期:2023-02-01
$ 355 
Taaze 讀冊生活 - 暢銷排行榜
與神夢想無限可能:從個人敬拜到全地轉化的四重藍圖
出版社:天恩
出版日期:2025-03-25
$ 300 
金石堂 - 暢銷排行榜
惡靈剋星 (首刷限定版) 03
作者:新翔子
出版社:東立出版社
出版日期:2025-06-13
$ 171 
Taaze 讀冊生活 - 暢銷排行榜
做繪本的人
作者:編:山姆.麥卡倫、著:布萊克斯波萊克斯、艾娃.林斯特、陳志勇、碧翠絲.阿雷馬娜、 克里斯.霍頓、 凱蒂.克羅瑟等
出版社:大塊文化出版股份有限公司
出版日期:2025-06-07
$ 592 
 
Taaze 讀冊生活 - 新書排行榜
漫畫版世界偉人傳記(1):創新!愛迪生【點亮全世界的發明大王】(專家監修・難字注音版)
作者:吉田健二
出版社:野人文化
出版日期:2025-06-04
$ 279 
博客來 - 新書排行榜
請問愛:靈魂蛻變與合一(下冊)
作者:宇色Osel
出版社:楓書坊
出版日期:2025-06-10
$ 355 
金石堂 - 新書排行榜
單純可愛王子的偽裝戀人作戰-全
作者:佐々木ありこ
出版社:長鴻出版社股份有限公司
出版日期:2025-06-20
$ 119 
金石堂 - 新書排行榜
在揍爆嚮導天使之後,我當上了死靈術師1 ~最速觸發了隱藏事件,結果世界似乎要走向滅亡了~ (首刷限定版
作者:エリーゼ
出版社:東立出版社
出版日期:2025-06-16
$ 285 
 

©2025 FindBook.com.tw -  購物比價  找書網  找車網  服務條款  隱私權政策