寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南
定 價(jià):59 元
- 作者:(美) 扎哈爾斯基 著,王斌 譯
- 出版時(shí)間:2015/11/1
- ISBN:9787115336354
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:309
- 紙張:膠版紙
- 版次:1
- 開本:16開
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。大多數(shù)數(shù)據(jù)挖掘的教材都專注于介紹理論基礎(chǔ),因而往往難以理解和學(xué)習(xí)。
本書是介紹寫給程序員的一本數(shù)據(jù)挖掘指南,可以幫助讀者動(dòng)手實(shí)踐進(jìn)行數(shù)據(jù)挖掘、集體智慧并構(gòu)建推薦系統(tǒng)。全書共8章,介紹了數(shù)據(jù)挖掘的基本知識和理論、協(xié)同過濾、內(nèi)容過濾及分類、算法評估、樸素貝葉斯、非結(jié)構(gòu)化文本分類以及聚類等內(nèi)容。全書采用做中學(xué)的方式,用生動(dòng)的圖示、大量的表格、簡明的公式,實(shí)用的Python代碼示例,闡釋數(shù)據(jù)挖掘的知識和技能。每章還給出了習(xí)題和練習(xí),幫助讀者鞏固所學(xué)的知識。
本書專注適合對數(shù)據(jù)挖掘、數(shù)據(jù)分析和推薦系統(tǒng)感興趣的程序員及相關(guān)領(lǐng)域的從業(yè)者閱讀參考;同時(shí),本書也可以作為一本輕松有趣的數(shù)據(jù)挖掘課程教學(xué)參考書。
大多數(shù)數(shù)據(jù)挖掘的教材都專注于介紹理論基礎(chǔ),因而往往難以理解和學(xué)習(xí)。 本書是介紹寫給程序員的一本數(shù)據(jù)挖掘指南,可以幫助讀者動(dòng)手實(shí)踐進(jìn)行數(shù)據(jù)挖掘、集體智慧并構(gòu)建推薦系統(tǒng)! ”緯髡卟捎迷趯(shí)踐中學(xué)的方式,提供了Python的代碼和案例,詳細(xì)介紹如何應(yīng)用數(shù)據(jù)挖掘技術(shù),開發(fā)出實(shí)用的推薦系統(tǒng)。 本書英文版在網(wǎng)絡(luò)上放出樣章,得到很多業(yè)內(nèi)知名人士的推薦和好評! ≈夹g(shù)譯者王斌老師譯作,翻譯質(zhì)量上乘 數(shù)據(jù)挖掘一般是指通過算法搜索隱藏于大量的數(shù)據(jù)之中的信息的過程。眾多的數(shù)據(jù)挖掘教材都專注于介紹理論基礎(chǔ),因而往往難以理解和學(xué)習(xí)。 本書是專門寫給程序員的一本數(shù)據(jù)挖掘指南,可以幫助讀者動(dòng)手實(shí)踐,進(jìn)行數(shù)據(jù)挖掘、應(yīng)用集體智慧并構(gòu)建推薦系統(tǒng)。 全書共8 章,介紹了數(shù)據(jù)挖掘的基本知識和理論、協(xié)同過濾、內(nèi)容過濾及分類、算法評估、樸素貝葉斯、非結(jié)構(gòu)化文本分類以及聚類等內(nèi)容;用生動(dòng)的圖示、大量的表格、簡明的公式以及實(shí)用的Python 代碼示例,闡釋數(shù)據(jù)挖掘的知識和技能! ∶空逻給出了習(xí)題和練習(xí),幫助讀者鞏固所學(xué)的知識! ”緯捎迷趯(shí)踐中學(xué)習(xí)的思路來組織內(nèi)容。建議讀者不是被動(dòng)地閱讀本書,而是通過課后習(xí)題和本書提供的Python 代碼進(jìn)行實(shí)踐。此外,讀者還應(yīng)當(dāng)積極參與到數(shù)據(jù)挖掘技術(shù)的編程實(shí)踐中! ”緯m合對數(shù)據(jù)挖掘、數(shù)據(jù)分析和推薦系統(tǒng)感興趣的程序員及相關(guān)領(lǐng)域的從業(yè)者閱讀參考;同時(shí),本書也可以作為 一本輕松有趣的數(shù)據(jù)挖掘課程教學(xué)參考書。本書由一系列互為基礎(chǔ)的小的知識點(diǎn)累積而成,學(xué)完本書以后,能夠?yàn)槔斫狻 ?shù)據(jù)挖掘的各種技術(shù)打下堅(jiān)實(shí)的基礎(chǔ)。
Ron Zacharski是一名軟件開發(fā)工程師,曾在威斯康辛大學(xué)獲美術(shù)學(xué)士學(xué)位,之后還在明尼蘇達(dá)大學(xué)獲得了計(jì)算機(jī)科學(xué)博士學(xué)位。博士后期間,他在愛丁堡大學(xué)研究語言學(xué)。正是基于廣博的學(xué)識,他不僅在新墨西哥州立大學(xué)的計(jì)算研究實(shí)驗(yàn)室工作,期間還接觸過自然語言處理相關(guān)的項(xiàng)目,而該實(shí)驗(yàn)室曾被《連線》雜志評為機(jī)器翻譯研究領(lǐng)域翹楚。除此之外,他還曾教授計(jì)算機(jī)科學(xué)、語言學(xué)、音樂等課程,是一名博學(xué)多才的科技達(dá)人。
王斌 博士,中國科學(xué)院信息工程研究所研究員,博士生導(dǎo)師,中國科學(xué)院大學(xué)兼職教授,研究方向?yàn)樾畔z索、自然語言處理與數(shù)據(jù)挖掘。主持國家973、863、國家自然科學(xué)基金、國際合作基金、部委及企業(yè)合作等課題近30項(xiàng),發(fā)表學(xué)術(shù)論文130余篇,領(lǐng)導(dǎo)研制的多個(gè)系統(tǒng)上線使用,曾獲國家科技進(jìn)步二等獎(jiǎng)和北京市科學(xué)技術(shù)二等獎(jiǎng)各一項(xiàng),F(xiàn)為中國中文信息學(xué)會理事、信息檢索、社會媒體處理、語言與知識計(jì)算等多個(gè)專業(yè)委員會委員、《中文信息學(xué)報(bào)》編委、中國計(jì)算機(jī)學(xué)會高級會員及中文信息處理專業(yè)委員會委員。多次擔(dān)任SIGIR、ACL、CIKM等會議的程序委員會委員。《信息檢索導(dǎo)論》、《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》、《Mahout實(shí)戰(zhàn)》譯者。2006年起在中國科學(xué)院大學(xué)講授《現(xiàn)代信息檢索》研究生課程,累計(jì)選課人數(shù)已超過1500人。迄今培養(yǎng)博士、碩士研究生近40名。
第1章 數(shù)據(jù)挖掘簡介及本書使用方法
歡迎來到21世紀(jì)
并不只是對象
TB級挖掘是現(xiàn)實(shí)不是科幻
本書體例
第2章 協(xié)同過濾-愛你所愛
如何尋找相似用戶
曼哈頓距離
歐氏距離
N維下的思考
一般化
Python中數(shù)據(jù)表示方法及代碼
計(jì)算曼哈頓距離的代碼
用戶的評級差異
皮爾遜相關(guān)系數(shù)
在繼續(xù)之前稍微休息一下
*后一個(gè)公式-余弦相似度
相似度的選擇
一些怪異的事情
k近鄰
Python的一個(gè)推薦類
一個(gè)新數(shù)據(jù)集
第3章 協(xié)同過濾-隱式評級及基于物品的過濾
隱式評級
調(diào)整后的余弦相似度
Slope One算法
Slope One算法的粗略描述圖
基于Python的實(shí)現(xiàn)
加權(quán)Slope One:推薦模塊
MovieLens數(shù)據(jù)集
第4章 內(nèi)容過濾及分類-基于物品屬性的過濾
一個(gè)簡單的例子
用Python實(shí)現(xiàn)
給出推薦的原因
一個(gè)取值范圍的問題
歸一化
改進(jìn)的標(biāo)準(zhǔn)分?jǐn)?shù)
歸一化 vs. 不歸一化
回到Pandora
體育項(xiàng)目的識別
Python編程
就是它了
汽車MPG數(shù)據(jù)
雜談
第5章 分類的進(jìn)一步探討-算法評估及kNN
訓(xùn)練集和測試集
10折交叉驗(yàn)證的例子
混淆矩陣
一個(gè)編程的例子
Kappa統(tǒng)計(jì)量
近鄰算法的改進(jìn)
一個(gè)新數(shù)據(jù)集及挑戰(zhàn)
更多數(shù)據(jù)、更好的算法以及一輛破公共汽車
第6章 概率及樸素貝葉斯-樸素貝葉斯
微軟購物車
貝葉斯定理
為什么需要貝葉斯定理
i100 i500
用Python編程實(shí)現(xiàn)
共和黨 vs. 民主黨
數(shù)字
Python實(shí)現(xiàn)
這種做法會比近鄰算法好嗎
第7章 樸素貝葉斯及文本-非結(jié)構(gòu)化文本分類
一個(gè)文本正負(fù)傾向性的自動(dòng)判定系統(tǒng)
訓(xùn)練階段
第8章 聚類-群組發(fā)現(xiàn)
k-means聚類
SSE或散度
小結(jié)
安然公司