數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。大多數數據挖掘的教材都專注於介紹理論基礎,因而往往難以理解和學習。
本書是介紹寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐進行數據挖掘、集體智慧並構建推薦系統。全書共8章,介紹了數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、算法評估、朴素貝葉斯、非結構化文本分類以及聚類等內容。全書采用做中學的方式,用生動的圖示、大量的表格、簡明的公式,實用的Python代碼示例,闡釋數據挖掘的知識和技能。每章還給出了習題和練習,幫助讀者鞏固所學的知識。
本書專注適合對數據挖掘、數據分析和推薦系統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為一本輕松有趣的數據挖掘課程教學參考書。
Ron Zacharski是一名軟件開發工程師,曾在威斯康辛大學獲美術學士學位,之后還在明尼蘇達大學獲得了計算機科學博士學位。博士后期間,他在愛丁堡大學研究語言學。正是基於廣博的學識,他不僅在新墨西哥州立大學的計算研究實驗室工作,期間還接觸過自然語言處理相關的項目,而該實驗室曾被《連線》雜志評為機器翻譯研究領域翹楚。除此之外,他還曾教授計算機科學、語言學、音樂等課程,是一名博學多才的科技達人。