飼育網路爬蟲：搜尋引擎資料探勘最佳化-FindBook 找書網 ISBN:9789866007941

內容簡介

　　本書作者是一位資深的搜尋引擎開發人員，作者對資料獲取(網路資訊挖掘)與資料檢索(搜尋引擎)兩方面作了深入的介紹。本書首先提出了一套「網路資料採擷」的完整理論，並舉出一個實際的智慧爬蟲系統，透過理論與實際的完整呈現，使讀者能夠對「網路資料採擷」有一個比較具體的認識，然後介紹了一個專用程式語言IRS，並舉出了這個語言的編譯器以及虛擬機器的實現方法。

　　本書還透過對多個開放原始碼搜尋引擎項目抽絲剝繭的細緻分析，引出搜尋引擎的一些基本原理與開發方法，並介紹一個商業化搜尋引擎的實例；最終還結合一個Java框架介紹一些軟體設計思想。

　　希望本書能對搜尋引擎開發人員有所啟發，幫助那些對搜尋引擎開發有興趣的讀者踏進這扇大門，並為那些經驗不那麼豐富的搜尋引擎開發者提供一些參考，使得廣大網際網路使用者能在Google 和Baidu 之外的眾多的垂直搜索網站上獲得更好的體驗與服務。從初學者到有一定經驗的搜尋引擎開發人員，各個層次的讀者都能找到一些適合自己閱讀的章節。

第2章　智慧型網路爬蟲
2.1 智慧型網路爬蟲的定義與特點
2.2 抓取入口定義
2.3 次級頁面自動發現
2.4 次級頁面位址拼接
2.5 已爬位址處理
2.6 資訊採集強度控制
2.7 模擬使用者登入
2.8 驗證碼識別
2.9 代理伺服器設置
2.10 JavaScript 解析控制

第3章　網頁資訊挖掘專用程式設計語言IRS
3.1 IRS 語言的簡介與設計原則
3.2 IRS 腳本語法結構

第4章　IRS 虛擬機器及編譯器實現原理
4.1 Ruby 基本語法
4.2 Java 與JRuby 的整合
4.3 詞法分析和語法分析
4.4 IRS 語言的語義分析
4.5 IRVM 虛擬機器主類別

第5章　搜尋引擎設計原理
5.1 概述
5.2 Lucene 搜尋引擎的原理
5.3 Hadoop 搜尋引擎的原理
5.4 Nutch 搜尋引擎的原理
5.5 Compass 搜尋引擎的原理
5.6 Solr 搜尋引擎的原理

第6章搜尋引擎的商業化實現
6.1 索引
6.2 查詢

第7章 Hivemind
7.1 模組(Modules)
7.2 子模組與依賴性(Sub Modules & Dependency)
7.3 服務點(ServicePoints)
7.4 攔截器(Interceptor)
7.5 設定點(ConfigurationPoints)
7.6 符號資源(SymbolSources)
7.7 轉換器(Translators)
7.8 物件提供器(ObjectProviders)
7.9 服務模型(ServiceModels)
7.10 啟動& 預載入(Startup & EagerLoad)
7.11 服務構造器

看更多

詳細資料

ISBN：9789866007941
規格：平裝 / 416頁 / 17 x 23 cm / 普通級 / 單色印刷 / 初版
出版地：台灣

飼育網路爬蟲：搜尋引擎資料探勘最佳化

內容簡介

目錄

詳細資料