PART1自己動手抓取資料
第1章 全面剖析網路爬蟲
1.1抓取網頁
1.2寬度優先爬蟲和帶偏好的爬蟲
1.3設計爬蟲佇列
1.4設計爬蟲架構
1.5使用多執行緒技術提升爬蟲性能
1.6本章小結
第2章 分散式爬蟲
2.1設計分散式爬蟲
2.2分散式儲存
2.3Google的成功之道──GFS
2.4Google網頁儲存秘訣──BigTable
2.5Google的成功之道──MapReduce演算法
2.6Nutch中的分散式
2.7本章小結
第3章 爬蟲的“方方面面”
3.1爬蟲中的“黑洞”
3.2限定爬蟲和主題爬蟲
3.3有“道德“的爬蟲
3.4本章小結
PART2自己動手抓取資料
第4章 “處理”HTML頁面
4.1征服正則運算式
4.2抽取HTML正文
4.3抽取正文
4.4從JavaScript中抽取資訊
4.5本章小結
第5章 非HTML正文抽取
5.1抽取PDF檔案
5.2抽取Office文件
5.3抽取RTF
5.4本章小結
第6章 多媒體抽取
6.1抽取視訊
6.2聲音抽取
6.3本章小結
第7章 去掉網頁中的“雜訊”
7.1“雜訊“對網頁的影響
7.2利用“統計學“消除“雜訊”
7.3利用“視覺”消除“雜訊”
7.4本章小結
PART3自己動手挖掘Web資料
第8章 分析Web圖
8.1儲存Web“圖”
8.2利用Web“圖”分析連結
8.3Google的秘密──PageRank
8.4PageRank的兄弟HITS
8.5PageRank與HITS的比較
8.6本章小結
第9章 去掉重複的“文件”
9.1何為“重複”的文件
9.2去除“重複”文件──排除重複
9.3利用“語義指紋”排除重複
9.4SimHash排除重複
9.5分散式文件排除重複
9.6本章小結
第10章 分類與聚類別的應用
10.1網頁分類
10.2網頁聚類
10.3本章小結