搜尋引擎作為網際網路發展中非常重要的一種應用,已經成為網際網路各個領域中的制高點,其重要性不言而喻。搜尋引擎領域也是網際網路應用中以核心技術作為其主要命脈的領域,搜尋引擎各個子系統是如何設計的呢?這值得成為廣大技術人員和搜尋引擎機制優化人員密切關心的內容。
本書的最大特點為內容新穎全面且通俗易懂。對於搜尋引擎所涉及的各種核心技術都有全面且詳細的介紹,除了作為搜尋系統核心的網路爬蟲、索引系統、排序系統、連結分析及使用者分析之外,還包括網頁反作弊、快取管理、相似網頁抄襲偵測…等技術於搜尋引擎必須關心的技術,同時使用相當大的篇幅講解雲端運算與雲端儲存的核心技術原理。此外,本書也密切注意搜尋引擎發展的前沿技術:Google咖啡因系統及Megastore等雲端運算新技術、百度的深層網頁抓取技術阿拉丁計畫、內容農場作弊、機器學習排序…等。諸多新技術在相關章節都有詳細的講解,同時對於社交搜尋、即時搜尋及情境搜尋…等搜尋引擎的未來發展方向進行探討。為了增進讀者對於相關技術的了解,在書中引入大量的圖片來講解演算法的運作原理,相信讀者會發現原來搜尋引擎的核心技術比原先想像的要簡單得多。
本書適合對於搜尋引擎技術感興趣的所有使用者,尤其對於相關領域的學生以及對於搜尋引擎核心技術感到好奇的技術人員,並且對於從事搜尋引擎機制優化的相關人員及中小網站的站長…更具有參考價值。
誰適合閱讀這本書
如果您是下列人員之一,那麼本書便非常適合您閱讀。
1. 對於搜尋引擎核心演算法有興趣的技術人員
.搜尋引擎的整體架構為何?包含哪些核心技術?
.網路爬蟲的基本架構為何?常見的網頁爬取原則策略?何謂深層網頁爬取?如何建構分散式爬蟲?百度的阿拉丁計畫內容為何?
.何謂反向索引?如何針對反向索引進行資料壓縮?
.搜尋引擎如何對搜尋結果排序?
.何謂向量空間模型?概率模型?BM25模型?機器學習排序?它們之間有何差異?
.PageRank和HITS演算法為何關係?有何差異?SALSA演算法?Hilltop演算法?各種連結分析演算法之間有何關係?
.如何辨識使用者搜尋的真正搜尋意圖?使用者搜尋目的可以分為幾類?何謂點擊圖?何謂查詢會話?相關搜尋機制是如何達成的?
.為什麼要對網頁進行重複內容刪除機制?如何對網頁進行重複內容去除?哪種演算法效果比較好?
.搜尋引擎快取有幾層結構?核心原則為何?
.何謂情境搜尋?社交搜尋?即時搜尋?
.搜尋引擎機制有哪些發展趨勢?
如果您對其中三個以上的議題感到興趣,那麼本書就是為您而寫的。
2. 對於雲端運算與雲端儲存技術有興趣的技術人員
.何謂CAP原理?ACID原理?它們之間有什麼差異?
.Google的整套雲端運算架構中包含哪些技術?Hadoop和Google的雲端運算架構有什麼關係?
.Google的三駕馬車GFS、BigTable、MapReduce各自代表什麼含義?其關係為何?
.Google的咖啡因系統其基本原理為何?
.Google的Pregel運算模型和MapReduce運算模型有什麼區別?
.Google的Megastore雲端儲存系統和BigTable關係為何?
.Amazon的Dynamo系統為何?
.Yahoo的PNUTS系統為何?
.Facebook的Haystack儲存系統適合應用於什麼場合上?
如果您對上述問題感興趣,相信可以從書中找到答案。
3. 從事搜尋引擎優化的網路行銷人員及中小網站站長
.搜尋引擎的反作弊策略為何?如何在進行優化時避免被誤認為是作弊行為?
.搜尋引擎如何對搜尋結果進行排序?連結分析和內容排序關係為何?
.何謂內容農場?連結農場?它們之間的關係為何?
.何謂Web2.0作弊?有哪些常見手法?
.何謂SpamRank?TrustRank?BadRank?它們之間的關係為何?
.咖啡因系統對於網頁排名有何影響?
最近有一些電子商務網站針對搜尋引擎進行優化,但是結果卻是被Google 認為是搜尋引擎毒化 (Blackhat SEO) 因此反而導致搜尋排名下降,如何避免發生這種情況? 從事相關行業的行銷人員和網站站長都應該深入瞭解搜尋引擎反作弊的基本策略和方法,甚至是網頁排名演算法等搜尋引擎核心技術。SEO 技術說穿了其實很簡單,雖然不斷發生變化,但是很多原理其實都相似,萬變不離其宗,深入瞭解搜尋引擎相關技術原理將增加您的競爭優勢。
作者簡介
張俊林
本科畢業於天津大學管理學院,2004年於中國中科院軟體所直接獲得博士學位並留所從事科研工作,研究方向為搜尋引擎與自然語言處理。曾多次參加美國國防部DARPA項目舉辦的訊息檢索評測會議TREC「高精度檢索」任務。
在TREC2004獲得高精度檢索系統評側總成績第一名(包括微軟劍橋研究院、UIC等17個國際高水平訊息檢索科研隊伍參加此項評測),並在包括ACL、COLING、JICNLP等多種高水平國際會議與國內期刊發表20多篇學術論文。
2005年在CSDN博客發佈系列博文《搜尋引擎設計實用教程:以百度為例》,在網路上獲得了廣泛轉載與良好口碑。2006年作為聯合創始人建立了智能訊息聚合網站「玩聚網」,曾先後於阿里巴巴搜尋技術中心擔任資深搜尋技術研究員、房價網頁首席研究員,現任職於新浪微博,從事微博搜尋與語意分析及推薦方面的研發工作。