第1章 網頁資料採擷
1.1 網頁資料採擷定義
1.2 Web 資料採擷面臨的問題
1.3 Web 資料採擷的分類
1.4 網頁資料的結構與特點
1.5 網頁資料採擷的基本方法
第2章 智慧型網路爬蟲
2.1 智慧型網路爬蟲的定義與特點
2.2 抓取入口定義
2.3 次級頁面自動發現
2.4 次級頁面位址拼接
2.5 已爬位址處理
2.6 資訊採集強度控制
2.7 模擬使用者登入
2.8 驗證碼識別
2.9 代理伺服器設置
2.10 JavaScript 解析控制
第3章 網頁資訊挖掘專用程式設計語言IRS
3.1 IRS 語言的簡介與設計原則
3.2 IRS 腳本語法結構
第4章 IRS 虛擬機器及編譯器實現原理
4.1 Ruby 基本語法
4.2 Java 與JRuby 的整合
4.3 詞法分析和語法分析
4.4 IRS 語言的語義分析
4.5 IRVM 虛擬機器主類別
第5章 搜尋引擎設計原理
5.1 概述
5.2 Lucene 搜尋引擎的原理
5.3 Hadoop 搜尋引擎的原理
5.4 Nutch 搜尋引擎的原理
5.5 Compass 搜尋引擎的原理
5.6 Solr 搜尋引擎的原理
第6章 搜尋引擎的商業化實現
6.1 索引
6.2 查詢
第7章 Hivemind
7.1 模組(Modules)
7.2 子模組與依賴性(Sub Modules & Dependency)
7.3 服務點(ServicePoints)
7.4 攔截器(Interceptor)
7.5 設定點(ConfigurationPoints)
7.6 符號資源(SymbolSources)
7.7 轉換器(Translators)
7.8 物件提供器(ObjectProviders)
7.9 服務模型(ServiceModels)
7.10 啟動& 預載入(Startup & EagerLoad)
7.11 服務構造器