FindBook

有 3 項符合

王者歸來：自己動手寫網路爬蟲(附範例CD)

的圖書

王者歸來：自己動手寫網路爬蟲

王者歸來：自己動手寫網路爬蟲

作者：羅剛、王振東　
出版社：佳魁資訊股份有限公司
出版日期：2012-01-16
語言：繁體書

圖書選購

型式	價格	供應商	所屬目錄
二手書	$ 274	TAAZE 讀冊生活	二手中文書
	$ 495	iRead灰熊愛讀書	程式語言
	$ 495	三民網路書店	圖書資訊

圖書名稱：王者歸來：自己動手寫網路爬蟲(附範例CD)

內容簡介

　　當你在飆網時，是否知道還有一類特殊的網路使用者也再網際網路上默默的工作著，他們就是網路爬蟲。這些網路爬蟲按照設計者預定的方式，在網路中穿梭，同時自動蒐集有用的資訊，進行分類和整理，將整理結果提供給使用者，方便使用者尋找他們感興趣的內容。由於網路爬蟲的實用性，引起很多程式師，特別是Web程式師的興趣。

　　本書是第一本專門講解網路爬蟲開發的書籍，將理論與實作相結合，介紹如何利用雲端運算架構開發分布式爬蟲、介紹網路爬蟲開發中的關鍵問題與java實現。從基本的爬蟲原理開始講解，引領讀者入門；到重點講述雲端運算的相關內容及其在爬蟲中的應用。適用於需要實際應用搜尋引擎的程式師使用，或作為電腦相關專業科系參考教材。

目錄

PART1自己動手抓取資料

第1章　全面剖析網路爬蟲
1.1抓取網頁
1.2寬度優先爬蟲和帶偏好的爬蟲
1.3設計爬蟲佇列
1.4設計爬蟲架構
1.5使用多執行緒技術提升爬蟲性能
1.6本章小結

第2章　分散式爬蟲
2.1設計分散式爬蟲
2.2分散式儲存
2.3Google的成功之道──GFS
2.4Google網頁儲存秘訣──BigTable
2.5Google的成功之道──MapReduce演算法
2.6Nutch中的分散式
2.7本章小結

第3章　爬蟲的“方方面面”
3.1爬蟲中的“黑洞”
3.2限定爬蟲和主題爬蟲
3.3有“道德“的爬蟲
3.4本章小結
PART2自己動手抓取資料

第4章　“處理”HTML頁面
4.1征服正則運算式
4.2抽取HTML正文
4.3抽取正文
4.4從JavaScript中抽取資訊
4.5本章小結

第5章　非HTML正文抽取
5.1抽取PDF檔案
5.2抽取Office文件
5.3抽取RTF
5.4本章小結

第6章　多媒體抽取
6.1抽取視訊
6.2聲音抽取
6.3本章小結

第7章　去掉網頁中的“雜訊”
7.1“雜訊“對網頁的影響
7.2利用“統計學“消除“雜訊”
7.3利用“視覺”消除“雜訊”
7.4本章小結
PART3自己動手挖掘Web資料

第8章　分析Web圖
8.1儲存Web“圖”
8.2利用Web“圖”分析連結
8.3Google的秘密──PageRank
8.4PageRank的兄弟HITS
8.5PageRank與HITS的比較
8.6本章小結

第9章　去掉重複的“文件”
9.1何為“重複”的文件
9.2去除“重複”文件──排除重複
9.3利用“語義指紋”排除重複
9.4SimHash排除重複
9.5分散式文件排除重複
9.6本章小結

第10章　分類與聚類別的應用
10.1網頁分類
10.2網頁聚類
10.3本章小結

詳細資料

ISBN：9789866007279
規格：平裝 / 384頁 / 16 x 23 cm / 普通級 / 單色印刷 / 初版
出版地：台灣

回上面

贊助商廣告

金石堂 - 今日66折

百萬父母都說讚!菜市場的營養學:權威營養師的110道副食品全書(暢銷修訂版)

百萬父母都說讚!菜市場的營養學:權威營養師的110道副食品全書(暢銷修訂版)

66折： $ 284

金石堂 - 今日66折

實體書＋有聲書！0-12歲親子英文文法：邊聽故事邊學文法，同時結合親子共讀、品格教養的超級學習法！（附QR碼線上音檔）

實體書＋有聲書！0-12歲親子英文文法：邊聽故事邊學文法，同時結合親子共讀、品格教養的超級學習法！（附QR碼線上音檔）

66折： $ 263

金石堂 - 今日66折

我的哈佛數學課：跳脫解法、不必死記，專門教出常春藤名校學生的名師教你「戰勝數學的方法」，再也不必怕數學！

我的哈佛數學課：跳脫解法、不必死記，專門教出常春藤名校學生的名師教你「戰勝數學的方法」，再也不必怕數學！

66折： $ 277

金石堂 - 今日66折

純素起司Vegan Cheese：第一本100%純天然起司全書！零蛋奶、無麩質、高蛋白的健康新選擇

純素起司Vegan Cheese：第一本100%純天然起司全書！零蛋奶、無麩質、高蛋白的健康新選擇

66折： $ 329

金石堂 - 暢銷排行榜

伊谷納多的新娘(01)特典版

伊谷納多的新娘(01)特典版

作者：もりもより

出版社：青文出版社股份有限公司

出版日期：2025-05-28

$ 142

博客來 - 暢銷排行榜

高能量溝通：聽得懂‧想得通‧說得好，3步驟讓你的影響力翻倍

高能量溝通：聽得懂‧想得通‧說得好，3步驟讓你的影響力翻倍

出版日期：2025-05-07

$ 347

Taaze 讀冊生活 - 暢銷排行榜

空中英語教室雜誌 6月號/2025

空中英語教室雜誌 6月號/2025

出版社：創新書報股份有限公司

出版日期：2025-05-15

$ 162

Taaze 讀冊生活 - 暢銷排行榜

來！學華語第一冊作業本（印尼文）

來！學華語第一冊作業本（印尼文）

作者：編寫/孫懿芬、曹靜儀、張家銘、黃亭寧初版審查/方麗娜印尼文版翻譯/Teng Eunice Xue Qi、Almanara Alin 印尼文版審校/Yang YunPing、Mulyoo Mjiyono、Wiyanto Suroso

出版社：僑務委員會

出版日期：2025-03-01

$ 95

更多暢銷書

Taaze 讀冊生活 - 新書排行榜

地球之籽：能者寓言

地球之籽：能者寓言

作者：奧塔薇亞．巴特勒

出版社：時報文化出版企業股份有限公司

出版日期：2025-05-27

$ 455

金石堂 - 新書排行榜

如果30歲還是處男，似乎就能成為魔法師(14)限定版

如果30歲還是處男，似乎就能成為魔法師(14)限定版

作者：豐田悠

出版社：青文出版社股份有限公司

出版日期：2025-06-05

$ 158

金石堂 - 新書排行榜

盜墓筆記外傳十年

盜墓筆記外傳十年

作者：南派三叔

出版社：尖端出版股份有限公司

出版日期：2025-05-29

$ 285

Taaze 讀冊生活 - 新書排行榜

寫下你的關鍵詞：選對詞，解鎖生命故事，展現影響力

寫下你的關鍵詞：選對詞，解鎖生命故事，展現影響力

作者：貝佛莉．葛利克

出版社：先覺出版

出版日期：2025-06-01

$ 202

©2025 FindBook.com.tw - 購物比價找書網找車網服務條款隱私權政策