關(guān)于我們
書(shū)單推薦
新書(shū)推薦
|
數(shù)據(jù)挖掘 讀者對(duì)象:本書(shū)是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域內(nèi)的所有教師、研究人員、開(kāi)發(fā)人員和用戶都必讀的參考書(shū), 是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)課程的優(yōu)秀教材, 可以用做高年級(jí)本科生或者一年級(jí)研究生的數(shù)據(jù)挖掘?qū)д摻滩?/p>
《數(shù)據(jù)挖掘:概念與技術(shù)(原書(shū)第3版)》完整全面地講述數(shù)據(jù)挖掘的概念、方法、技術(shù)和最新研究進(jìn)展。本書(shū)對(duì)前兩版做了全面修訂,加強(qiáng)和重新組織了全書(shū)的技術(shù)內(nèi)容,重點(diǎn)論述了數(shù)據(jù)預(yù)處理、頻繁模式挖掘、分類(lèi)和聚類(lèi)等的內(nèi)容,還全面講述了OLAP和離群點(diǎn)檢測(cè),并研討了挖掘網(wǎng)絡(luò)、復(fù)雜數(shù)據(jù)類(lèi)型以及重要應(yīng)用領(lǐng)域。
《數(shù)據(jù)挖掘:概念與技術(shù)(原書(shū)第3版)》是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域內(nèi)的所有教師、研究人員、開(kāi)發(fā)人員和用戶都必讀的參考書(shū),是一本適用于數(shù)據(jù)分析、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)課程的優(yōu)秀教材,可以用做高年級(jí)本科生或者一年級(jí)研究生的數(shù)據(jù)挖掘?qū)д摻滩摹?br />
·數(shù)據(jù)挖掘領(lǐng)域最具里程碑意義的經(jīng)典著作 ·完整全面闡述該領(lǐng)域的重要知識(shí)和技術(shù)創(chuàng)新海報(bào):
社會(huì)的計(jì)算機(jī)化顯著地增強(qiáng)了我們產(chǎn)生和收集數(shù)據(jù)的能力。大量數(shù)據(jù)從我們生活的每個(gè)角落涌出。存儲(chǔ)的或瞬態(tài)的數(shù)據(jù)的爆炸性增長(zhǎng)已激起對(duì)新技術(shù)和自動(dòng)工具的需求,以幫助我們智能地將海量數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。這導(dǎo)致稱做數(shù)據(jù)挖掘的一個(gè)計(jì)算機(jī)科學(xué)前沿學(xué)科的產(chǎn)生,這是一個(gè)充滿希望和欣欣向榮并具有廣泛應(yīng)用的學(xué)科。數(shù)據(jù)挖掘通常又稱為數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KDD),是自動(dòng)地或方便地提取代表知識(shí)的模式;這些模式隱藏在大型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、Web、其他大量信息庫(kù)或數(shù)據(jù)流中。
本書(shū)考察知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的基本概念和技術(shù)。作為一個(gè)多學(xué)科領(lǐng)域,數(shù)據(jù)挖掘從多個(gè)學(xué)科汲取營(yíng)養(yǎng)。這些學(xué)科包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)技術(shù)、信息檢索、網(wǎng)絡(luò)科學(xué)、知識(shí)庫(kù)系統(tǒng)、人工智能、高性能計(jì)算和數(shù)據(jù)可視化。我們提供發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的模式的技術(shù),關(guān)注可行性、有用性、有效性和可伸縮性問(wèn)題。因此,本書(shū)不打算作為數(shù)據(jù)庫(kù)系統(tǒng)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)或其他某領(lǐng)域的導(dǎo)論,盡管我們確實(shí)提供了這些領(lǐng)域的必要背景材料,以便讀者理解它們各自在數(shù)據(jù)挖掘中的作用。本書(shū)是對(duì)數(shù)據(jù)挖掘的全面介紹。對(duì)于計(jì)算科學(xué)的學(xué)生、應(yīng)用開(kāi)發(fā)人員、行業(yè)專(zhuān)業(yè)人員以及涉及以上列舉的學(xué)科的研究人員,本書(shū)應(yīng)當(dāng)是有用的。 數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代后期,20世紀(jì)90年代有了突飛猛進(jìn)的發(fā)展,并可望在新千年繼續(xù)繁榮。本書(shū)全面展示該領(lǐng)域,介紹有趣的數(shù)據(jù)挖掘技術(shù)和系統(tǒng),并討論數(shù)據(jù)挖掘的應(yīng)用和研究方向。寫(xiě)本書(shū)的重要?jiǎng)訖C(jī)是需要建立一個(gè)學(xué)習(xí)數(shù)據(jù)挖掘的有組織的框架——由于這個(gè)快速發(fā)展領(lǐng)域的多學(xué)科特點(diǎn),這是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。我們希望本書(shū)有助于具有不同背景和經(jīng)驗(yàn)的人交換關(guān)于數(shù)據(jù)挖掘的見(jiàn)解,為進(jìn)一步促進(jìn)這個(gè)令人激動(dòng)的、不斷發(fā)展的領(lǐng)域的成長(zhǎng)做出貢獻(xiàn)。 本書(shū)的組織 自本書(shū)第1版、第2版出版以來(lái),數(shù)據(jù)挖掘領(lǐng)域已經(jīng)取得了重大進(jìn)展,開(kāi)發(fā)出了許多新的數(shù)據(jù)挖掘方法、系統(tǒng)和應(yīng)用,特別是對(duì)于處理包括信息網(wǎng)絡(luò)、圖、復(fù)雜結(jié)構(gòu)和數(shù)據(jù)流,以及文本、Web、多媒體、時(shí)間序列、時(shí)間空間數(shù)據(jù)在內(nèi)的新的數(shù)據(jù)類(lèi)型。這種快速發(fā)展、新技術(shù)不斷涌現(xiàn)使得在一本書(shū)中涵蓋整個(gè)領(lǐng)域的廣泛內(nèi)容非常困難。因此,我們決定與其繼續(xù)擴(kuò)大本書(shū)的涵蓋面,還不如讓本書(shū)以足夠的廣度和深度涵蓋該領(lǐng)域的核心內(nèi)容,而把復(fù)雜數(shù)據(jù)類(lèi)型的處理留給另一本即將面世的書(shū)。 第3版對(duì)本書(shū)的前兩版做了全面修訂,加強(qiáng)和重新組織了全書(shū)的技術(shù)內(nèi)容,顯著地?cái)U(kuò)充和加強(qiáng)處理一般數(shù)據(jù)類(lèi)型挖掘的核心技術(shù)。第2版中討論特定主題的章節(jié)(例如,數(shù)據(jù)預(yù)處理、頻繁模式挖掘、分類(lèi)和聚類(lèi))在這一版都被擴(kuò)充,每章都分成兩章。對(duì)于這些主題,一章囊括基本概念和技術(shù),而另一章提供高級(jí)概念和方法。 第2版關(guān)于復(fù)雜數(shù)據(jù)類(lèi)型的章節(jié)(例如,流數(shù)據(jù)、序列數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)、社會(huì)網(wǎng)絡(luò)數(shù)據(jù)和多重關(guān)系數(shù)據(jù),以及文本、Web、多媒體和時(shí)間空間數(shù)據(jù))現(xiàn)在保留給專(zhuān)門(mén)介紹數(shù)據(jù)挖掘的高級(jí)課題的新書(shū)。為了支持讀者學(xué)習(xí)這些高級(jí)課題,我們把第2版的相關(guān)章節(jié)的電子版放在本書(shū)的網(wǎng)站上,作為第3版的配套材料。 第3版各章的簡(jiǎn)要內(nèi)容如下(重點(diǎn)介紹新的內(nèi)容): 第1章提供關(guān)于數(shù)據(jù)挖掘的多學(xué)科領(lǐng)域的導(dǎo)論。該章討論導(dǎo)致需要數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)技術(shù)的發(fā)展歷程和數(shù)據(jù)挖掘應(yīng)用的重要性。該章考察挖掘的數(shù)據(jù)類(lèi)型,包括關(guān)系的、事務(wù)的和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù),以及復(fù)雜的數(shù)據(jù)類(lèi)型,如時(shí)間序列、序列、數(shù)據(jù)流、時(shí)間空間數(shù)據(jù)、多媒體數(shù)據(jù)、文本數(shù)據(jù)、圖、社會(huì)網(wǎng)絡(luò)和Web數(shù)據(jù)。該章根據(jù)所挖掘的知識(shí)類(lèi)型、所使用的技術(shù)以及目標(biāo)應(yīng)用的類(lèi)型,對(duì)數(shù)據(jù)挖掘任務(wù)進(jìn)行了一般分類(lèi)。最后討論該領(lǐng)域的主要挑戰(zhàn)。 第2章介紹一般數(shù)據(jù)特征。該章首先討論數(shù)據(jù)對(duì)象和屬性類(lèi)型,然后介紹基本統(tǒng)計(jì)數(shù)據(jù)描述的典型度量。該章概述各種類(lèi)型數(shù)據(jù)的數(shù)據(jù)可視化技術(shù)。除了數(shù)值數(shù)據(jù)的可視化方法外,還介紹文本、標(biāo)簽、圖和多維數(shù)據(jù)的可視化方法。第2章還介紹度量各種類(lèi)型數(shù)據(jù)的相似性和相異性的方法。 第3章介紹數(shù)據(jù)預(yù)處理技術(shù)。該章首先介紹數(shù)據(jù)質(zhì)量的概念,然后討論數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換和數(shù)據(jù)離散化的方法。 第4章和第5章是數(shù)據(jù)倉(cāng)庫(kù)、OLAP(聯(lián)機(jī)分析處理)和數(shù)據(jù)立方體技術(shù)的引論。第4章介紹數(shù)據(jù)倉(cāng)庫(kù)和OLAP的基本概念、建模、結(jié)構(gòu)、一般實(shí)現(xiàn),以及數(shù)據(jù)倉(cāng)庫(kù)和其他數(shù)據(jù)泛化的關(guān)系。第5章更深入地考察數(shù)據(jù)立方體技術(shù),詳細(xì)地研究數(shù)據(jù)立方體的計(jì)算方法,包括Star-Cubing和高維OLAP方法。該章還討論數(shù)據(jù)立方體和OLAP技術(shù)的進(jìn)一步研究,如抽樣立方體、排序立方體、預(yù)測(cè)立方體、用于復(fù)雜數(shù)據(jù)挖掘查詢的多特征立方體和發(fā)現(xiàn)驅(qū)動(dòng)的數(shù)據(jù)立方體的探查。 第6章和第7章介紹挖掘大型數(shù)據(jù)集中的頻繁模式、關(guān)聯(lián)和相關(guān)性的方法。第6章介紹基本概念,如購(gòu)物籃分析,還有條理地提供了許多頻繁項(xiàng)集挖掘技術(shù)。這些涵蓋從基本Apriori算法和它的變形,到改進(jìn)性能的更高級(jí)的方法,包括頻繁模式增長(zhǎng)方法,使用數(shù)據(jù)的垂直形式的頻繁模式挖掘,挖掘閉頻繁項(xiàng)集和極大頻繁項(xiàng)集。該章還討論模式評(píng)估方法并介紹挖掘相關(guān)模式的度量。第7章介紹高級(jí)模式挖掘方法。該章討論多層和多維空間中的模式挖掘,挖掘稀有和負(fù)模式,挖掘巨型模式和高維空間數(shù)據(jù),基于約束的模式挖掘和挖掘壓縮或近似模式。該章還介紹模式探查和應(yīng)用的方法,包括頻繁模式的語(yǔ)義注解。 第8章和第9章介紹數(shù)據(jù)分類(lèi)方法。由于分類(lèi)方法的重要性和多樣性,內(nèi)容被劃分成兩章。第8章介紹分類(lèi)的基本概念和方法,包括決策樹(shù)歸納、貝葉斯分類(lèi)和基于規(guī)則的分類(lèi)。該章還討論模型評(píng)估和選擇方法,以及提高分類(lèi)準(zhǔn)確率的方法,包括組合方法和處理不平衡數(shù)據(jù)。第9章討論分類(lèi)的高級(jí)方法,包括貝葉斯信念網(wǎng)絡(luò)、后向傳播的神經(jīng)網(wǎng)絡(luò)技術(shù)、支持向量機(jī)、使用頻繁模式的分類(lèi)、k-最鄰近分類(lèi)、基于案例的推理、遺傳算法、粗糙集理論和模糊集方法。附加的主題包括多類(lèi)分類(lèi)、半監(jiān)督分類(lèi)、主動(dòng)學(xué)習(xí)和遷移學(xué)習(xí)。 聚類(lèi)分析是第10章和第11章的主題。第10章介紹數(shù)據(jù)聚類(lèi)的基本概念和方法,包括基本聚類(lèi)分析方法的概述、劃分方法、層次方法、基于密度的方法和基于網(wǎng)格的方法。該章還介紹聚類(lèi)評(píng)估方法。第11章討論聚類(lèi)的高級(jí)方法,包括基于概率模型的聚類(lèi)、聚類(lèi)高維數(shù)據(jù)、聚類(lèi)圖和網(wǎng)絡(luò)數(shù)據(jù),以及基于約束的聚類(lèi)。 第12章專(zhuān)門(mén)討論離群點(diǎn)檢測(cè)。本章介紹離群點(diǎn)的基本概念和離群點(diǎn)分析,并從各種監(jiān)督力度(監(jiān)督的、半監(jiān)督的和無(wú)監(jiān)督的)以及方法角度(統(tǒng)計(jì)學(xué)方法、基于鄰近性的方法、基于聚類(lèi)的方法和基于分類(lèi)的方法)討論離群點(diǎn)檢測(cè)方法。該章還討論挖掘情境離群點(diǎn)和集體離群點(diǎn),以及高維數(shù)據(jù)中的離群點(diǎn)檢測(cè)。 最后,在第13章我們討論數(shù)據(jù)挖掘的趨勢(shì)、應(yīng)用和研究前沿。我們簡(jiǎn)略地介紹挖掘復(fù)雜數(shù)據(jù)類(lèi)型,包括挖掘序列數(shù)據(jù)(例如,時(shí)間序列、符號(hào)序列和生物學(xué)序列),挖掘圖和網(wǎng)絡(luò),以及挖掘空間、多媒體、文本和Web數(shù)據(jù)。這些數(shù)據(jù)挖掘方法的深入討論留給正在撰寫(xiě)的數(shù)據(jù)挖掘高級(jí)課題一書(shū)。然后,該章轉(zhuǎn)向討論其他數(shù)據(jù)挖掘方法學(xué),包括統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘、數(shù)據(jù)挖掘基礎(chǔ)、可視和聽(tīng)覺(jué)數(shù)據(jù)挖掘,以及數(shù)據(jù)挖掘的應(yīng)用。討論數(shù)據(jù)挖掘在金融數(shù)據(jù)分析、零售和電信產(chǎn)業(yè)、科學(xué)與工程,以及入侵檢測(cè)和預(yù)防方面的應(yīng)用。該章還討論數(shù)據(jù)挖掘與推薦系統(tǒng)的聯(lián)系。由于數(shù)據(jù)挖掘出現(xiàn)在我們?nèi)粘I畹姆椒矫婷,所以我們討論?shù)據(jù)挖掘與社會(huì),包括無(wú)處不在和無(wú)形的數(shù)據(jù)挖掘,以及隱私、安全和數(shù)據(jù)挖掘?qū)ι鐣?huì)的影響。我們用考察數(shù)據(jù)挖掘的發(fā)展趨勢(shì)結(jié)束本書(shū)。 書(shū)中楷體字用于強(qiáng)調(diào)定義的術(shù)語(yǔ),而黑體字用于突出主要思想。 本書(shū)與其他數(shù)據(jù)挖掘教材相比具有一些顯著特點(diǎn):它廣泛、深入地討論了數(shù)據(jù)挖掘原理。各章盡可能是自包含的,使得讀者可以按自己感興趣的次序閱讀。高級(jí)章節(jié)提供了更大的視野,感興趣的讀者可以選讀。本書(shū)提供了數(shù)據(jù)挖掘的所有主要方法,還提供了關(guān)于多維OLAP分析等數(shù)據(jù)挖掘的重要主題,這些主題在其他書(shū)中常常被忽略或很少提及。本書(shū)還維護(hù)了一個(gè)網(wǎng)站,其中包含大量在線資源,為教師、學(xué)生和該領(lǐng)域的專(zhuān)業(yè)人員提供支持。這些將在下面介紹。 致教師 本書(shū)旨在提供數(shù)據(jù)挖掘領(lǐng)域的一個(gè)廣泛而深入的概覽,可以作為高年級(jí)本科生或一年級(jí)研究生的數(shù)據(jù)挖掘?qū)д摗3酥v稿、教師指南和閱讀材料列表等教學(xué)資源之外,本書(shū)網(wǎng)站還提供了一個(gè)樣本課程安排。 根據(jù)授課學(xué)時(shí)、學(xué)生的背景和你的興趣,你可以選取章節(jié)的子集,以不同的順序進(jìn)行講授。例如,如果你只打算給學(xué)生講授數(shù)據(jù)挖掘入門(mén)導(dǎo)論,可以按照?qǐng)DP.1的建議。注意,根據(jù)需要,必要時(shí)可以省略其中某些節(jié)或某些小節(jié)。 圖P.1 入門(mén)導(dǎo)論課程的建議章節(jié)序列 根據(jù)學(xué)時(shí)和講授范圍,你可以有選擇地把更多的章節(jié)增加到這個(gè)基本序列中。例如,對(duì)高級(jí)分類(lèi)方法更感興趣的教師可以首先增加“第9章 分類(lèi):高級(jí)方法”;對(duì)模式挖掘更感興趣的教師可以選擇包括“第7章 高級(jí)模式挖掘”;而對(duì)OLAP和數(shù)據(jù)立方體技術(shù)感興趣的教師可以增加“第4章 數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理”和“第5章 數(shù)據(jù)立方體技術(shù)”。 或者,你可以選擇在兩個(gè)學(xué)期的系列課程中講授整本書(shū),包括本書(shū)的所有章節(jié),時(shí)間允許的話,加上圖和網(wǎng)絡(luò)挖掘這樣的高級(jí)課題。這些高級(jí)課題可以從本書(shū)網(wǎng)站提供的配套材料選擇,輔以挑選的研究論文。 本書(shū)的每一章都可以用做自學(xué)材料,或者用做數(shù)據(jù)庫(kù)系統(tǒng)、機(jī)器學(xué)習(xí)、模式識(shí)別和數(shù)據(jù)智能分析等相關(guān)課程的專(zhuān)題。 每章后面都有一些習(xí)題,適合作為家庭作業(yè)。這些習(xí)題或者是用于測(cè)驗(yàn)對(duì)內(nèi)容的掌握情況的小問(wèn)題,或者是需要分析思考的大問(wèn)題,或者是實(shí)現(xiàn)設(shè)計(jì)。有些習(xí)題也可以用做研究討論課題。每章后面的文獻(xiàn)注釋可以用來(lái)查找包含正文中提供的概念和方法的來(lái)源、相關(guān)課題的深入討論和可能的擴(kuò)展的研究文獻(xiàn)。 致學(xué)生 我們希望本書(shū)將激發(fā)你對(duì)年青,但正在快速發(fā)展的數(shù)據(jù)挖掘領(lǐng)域的興趣。我們?cè)噲D以清晰的方式提供材料,仔細(xì)地解釋所涵蓋的主題。每一章后面都附有一個(gè)小結(jié),總結(jié)要點(diǎn)。全書(shū)包含了許多圖和解釋?zhuān)员闶贡緯?shū)更加有趣和便于閱讀。盡管本書(shū)是作為教材編寫(xiě)的,但是我們也試圖把它組織成一本有用的參考書(shū)或手冊(cè),以有助于你今后在數(shù)據(jù)挖掘方面進(jìn)行深入研究和求職。 為閱讀本書(shū),你需要知道什么? ·你應(yīng)當(dāng)具有關(guān)于統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)系統(tǒng)和機(jī)器學(xué)習(xí)的概念和術(shù)語(yǔ)方面的知識(shí)。然而,我們盡力提供這些基礎(chǔ)知識(shí)的足夠背景,以便在讀者對(duì)這些領(lǐng)域不太熟悉或者記憶有些淡忘時(shí),也能夠理解本書(shū)的討論。 ·你應(yīng)當(dāng)具有一些程序設(shè)計(jì)經(jīng)驗(yàn)。特別是你應(yīng)當(dāng)能夠閱讀偽代碼,能夠理解像多維數(shù)組這樣的簡(jiǎn)單數(shù)據(jù)結(jié)構(gòu)。 致專(zhuān)業(yè)人員 本書(shū)旨在涵蓋數(shù)據(jù)挖掘領(lǐng)域的廣泛主題。因此,本書(shū)是關(guān)于該主題的一本優(yōu)秀手冊(cè)。由于每一章的編寫(xiě)都盡可能獨(dú)立,所以讀者可以關(guān)注自己最感興趣的課題。希望學(xué)習(xí)數(shù)據(jù)挖掘關(guān)鍵思想的應(yīng)用程序員和信息服務(wù)管理人員可以使用本書(shū)。對(duì)于有興趣使用數(shù)據(jù)挖掘技術(shù)解決其業(yè)務(wù)問(wèn)題的銀行、保險(xiǎn)、醫(yī)藥和零售業(yè)的數(shù)據(jù)分析人員,本書(shū)也是有用的。此外,本書(shū)也可以作為數(shù)據(jù)挖掘領(lǐng)域的全面綜述,有助于研究人員提升數(shù)據(jù)挖掘技巧,擴(kuò)展數(shù)據(jù)挖掘的應(yīng)用范圍。 本書(shū)所提供的技術(shù)和算法是實(shí)用的,介紹的算法適合于發(fā)現(xiàn)隱藏在大型、現(xiàn)實(shí)數(shù)據(jù)集中的模式和知識(shí),而不是挑選在小型“玩具”數(shù)據(jù)庫(kù)上運(yùn)行良好的算法。本書(shū)提供的每個(gè)算法都用偽代碼解釋。偽代碼類(lèi)似于程序設(shè)計(jì)語(yǔ)言C,但也精心加以策劃,使得不熟悉C或C++的程序員易于理解。如果你想實(shí)現(xiàn)算法,你會(huì)發(fā)現(xiàn)將我們的偽代碼轉(zhuǎn)換成選定的程序設(shè)計(jì)語(yǔ)言程序是一項(xiàng)非常簡(jiǎn)單的任務(wù)。 本書(shū)資源網(wǎng)站 這些網(wǎng)站為本書(shū)的讀者和對(duì)數(shù)據(jù)挖掘感興趣的人提供了一些附加材料,資源包括: ·每章的幻燈片。提供了用微軟的PowerPoint制作的每章教案。 ·高級(jí)數(shù)據(jù)挖掘的配套章節(jié)。本書(shū)第2版的第8~10章涵蓋了挖掘復(fù)雜的數(shù)據(jù)類(lèi)型,這超出了本書(shū)的主題,對(duì)這些高級(jí)主題感興趣的讀者可從網(wǎng)站上獲取。 ·教師手冊(cè)。本書(shū)習(xí)題的完整答案通過(guò)出版社的網(wǎng)站只向教師提供。 ·課程提綱和教學(xué)計(jì)劃。使用本書(shū)和幻燈片用于數(shù)據(jù)挖掘?qū)д撜n程和高級(jí)教程的本科生和研究生,可以獲取這些資源。 ·帶超鏈接的輔助閱讀文獻(xiàn)列表。補(bǔ)充讀物的原創(chuàng)性文章按章組織。 ·到數(shù)據(jù)挖掘數(shù)據(jù)集和軟件的鏈接。我們將提供到數(shù)據(jù)挖掘數(shù)據(jù)集和某些包含有趣的數(shù)據(jù)挖掘軟件包的站點(diǎn)的鏈接,如到伊利諾伊大學(xué)厄巴納-尚佩恩分校IlliMine的鏈接。 ·作業(yè)、考試和課程設(shè)計(jì)樣本。一組作業(yè)、考試和課程設(shè)計(jì)樣本將在出版社的網(wǎng)站上向教師提供。 ·本書(shū)的插圖。這可能有助于你制作自己的課堂教學(xué)幻燈片。 ·本書(shū)目錄。PDF格式。 ·本書(shū)不同印次的勘誤表。歡迎讀者指出本書(shū)中的錯(cuò)誤。一旦錯(cuò)誤被證實(shí),我們將更新勘誤表,并對(duì)你的貢獻(xiàn)致謝。
Jiawei Han(韓家煒),是伊利諾伊大學(xué)厄巴納-尚佩恩分校計(jì)算機(jī)科學(xué)系的Bliss教授。他因知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘研究方面的貢獻(xiàn)而獲得許多獎(jiǎng)勵(lì),包括ACM SIGKDD創(chuàng)新獎(jiǎng)(2004)、IEEE計(jì)算機(jī)學(xué)會(huì)技術(shù)成就獎(jiǎng)(2005)和IEEE W.Wallace McDowell獎(jiǎng)(2009)。他是ACM和IEEE會(huì)士。他還擔(dān)任《ACM Transactions on Knowledge Discovery from Data》的執(zhí)行主編(2006—2011)和許多雜志的編委,包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。
Micheline Kamber,由加拿大魁北克蒙特利爾Concordia大學(xué)獲計(jì)算機(jī)科學(xué)(人工智能專(zhuān)業(yè))碩士學(xué)位。她曾是NSERC學(xué)者,作為研究者在McGill大學(xué)、西蒙-弗雷澤大學(xué)和瑞士工作。她的數(shù)據(jù)挖掘背景和以易于理解的形式寫(xiě)作的熱情使得本書(shū)更受專(zhuān)業(yè)人員、教師和學(xué)生的歡迎。 Jian Pei(裴健),現(xiàn)在是西蒙-弗雷澤大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授。他在Jiawei Han的指導(dǎo)下,于2002年獲西蒙-弗雷澤大學(xué)計(jì)算科學(xué)博士學(xué)位。他在數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)、Web搜索和信息檢索的主要學(xué)術(shù)論壇發(fā)表了大量文章,并積極服務(wù)于學(xué)術(shù)團(tuán)體。他的文章被引用數(shù)千次,并獲多次榮譽(yù)獎(jiǎng)。他是多種數(shù)據(jù)挖掘和數(shù)據(jù)分析雜志的助理編輯。
出版者的話
中文版序 譯者序 譯者簡(jiǎn)介 第3版序 第2版序 前言 致謝 作者簡(jiǎn)介 第1章 引論 1.1 為什么進(jìn)行數(shù)據(jù)挖掘 1.1.1 邁向信息時(shí)代 1.1.2 數(shù)據(jù)挖掘是信息技術(shù)的進(jìn)化 1.2 什么是數(shù)據(jù)挖掘 1.3 可以挖掘什么類(lèi)型的數(shù)據(jù) 1.3.1 數(shù)據(jù)庫(kù)數(shù)據(jù) 1.3.2 數(shù)據(jù)倉(cāng)庫(kù) 1.3.3 事務(wù)數(shù)據(jù) 1.3.4 其他類(lèi)型的數(shù)據(jù) 1.4 可以挖掘什么類(lèi)型的模式 1.4.1 類(lèi)/概念描述:特征化與區(qū)分 1.4.2 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性 1.4.3 用于預(yù)測(cè)分析的分類(lèi)與回歸 1.4.4 聚類(lèi)分析 1.4.5 離群點(diǎn)分析 1.4.6 所有模式都是有趣的嗎 1.5 使用什么技術(shù) 1.5.1 統(tǒng)計(jì)學(xué) 1.5.2 機(jī)器學(xué)習(xí) 1.5.3 數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù) 1.5.4 信息檢索 1.6 面向什么類(lèi)型的應(yīng)用 1.6.1 商務(wù)智能 1.6.2 Web搜索引擎 1.7 數(shù)據(jù)挖掘的主要問(wèn)題 1.7.1 挖掘方法 1.7.2 用戶界面 1.7.3 有效性和可伸縮性 1.7.4 數(shù)據(jù)庫(kù)類(lèi)型的多樣性 1.7.5 數(shù)據(jù)挖掘與社會(huì) 1.8 小結(jié) 1.9 習(xí)題 1.10 文獻(xiàn)注釋 第2章 認(rèn)識(shí)數(shù)據(jù) 2.1 數(shù)據(jù)對(duì)象與屬性類(lèi)型 2.1.1 什么是屬性 2.1.2 標(biāo)稱屬性 2.1.3 二元屬性 2.1.4 序數(shù)屬性 2.1.5 數(shù)值屬性 2.1.6 離散屬性與連續(xù)屬性 2.2 數(shù)據(jù)的基本統(tǒng)計(jì)描述 2.2.1 中心趨勢(shì)度量:均值、中位數(shù)和眾數(shù) 2.2.2 度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差 2.2.3 數(shù)據(jù)的基本統(tǒng)計(jì)描述的圖形顯示 2.3 數(shù)據(jù)可視化 2.3.1 基于像素的可視化技術(shù) 2.3.2 幾何投影可視化技術(shù) 2.3.3 基于圖符的可視化技術(shù) 2.3.4 層次可視化技術(shù) 2.3.5 可視化復(fù)雜對(duì)象和關(guān)系 2.4 度量數(shù)據(jù)的相似性和相異性 2.4.1 數(shù)據(jù)矩陣與相異性矩陣 2.4.2 標(biāo)稱屬性的鄰近性度量 2.4.3 二元屬性的鄰近性度量 2.4.4 數(shù)值屬性的相異性:閔可夫斯基距離 2.4.5 序數(shù)屬性的鄰近性度量 2.4.6 混合類(lèi)型屬性的相異性 2.4.7 余弦相似性 2.5 小結(jié) 2.6 習(xí)題 2.7 文獻(xiàn)注釋 第3章 數(shù)據(jù)預(yù)處理 3.1 數(shù)據(jù)預(yù)處理:概述 3.1.1 數(shù)據(jù)質(zhì)量:為什么要對(duì)數(shù)據(jù)預(yù)處理 3.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù) 3.2 數(shù)據(jù)清理 3.2.1 缺失值 3.2.2 噪聲數(shù)據(jù) 3.2.3 數(shù)據(jù)清理作為一個(gè)過(guò)程 3.3 數(shù)據(jù)集成 3.3.1 實(shí)體識(shí)別問(wèn)題 3.3.2 冗余和相關(guān)分析 3.3.3 元組重復(fù) 3.3.4 數(shù)據(jù)值沖突的檢測(cè)與處理 3.4 數(shù)據(jù)歸約 3.4.1 數(shù)據(jù)歸約策略概述 3.4.2 小波變換 3.4.3 主成分分析 3.4.4 屬性子集選擇 3.4.5 回歸和對(duì)數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約 3.4.6 直方圖 3.4.7 聚類(lèi) 3.4.8 抽樣 3.4.9 數(shù)據(jù)立方體聚集 3.5 數(shù)據(jù)變換與數(shù)據(jù)離散化 3.5.1 數(shù)據(jù)變換策略概述 3.5.2 通過(guò)規(guī)范化變換數(shù)據(jù) 3.5.3 通過(guò)分箱離散化 3.5.4 通過(guò)直方圖分析離散化 3.5.5 通過(guò)聚類(lèi)、決策樹(shù)和相關(guān)分析離散化 3.5.6 標(biāo)稱數(shù)據(jù)的概念分層產(chǎn)生 3.6 小結(jié) 3.7 習(xí)題 3.8 文獻(xiàn)注釋 第4章 數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理 4.1 數(shù)據(jù)倉(cāng)庫(kù):基本概念 4.1.1 什么是數(shù)據(jù)倉(cāng)庫(kù) 4.1.2 操作數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別 4.1.3 為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù) 4.1.4 數(shù)據(jù)倉(cāng)庫(kù):一種多層體系結(jié)構(gòu) 4.1.5 數(shù)據(jù)倉(cāng)庫(kù)模型:企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市和虛擬倉(cāng)庫(kù) 4.1.6 數(shù)據(jù)提取、變換和裝入 4.1.7 元數(shù)據(jù)庫(kù) 4.2 數(shù)據(jù)倉(cāng)庫(kù)建模:數(shù)據(jù)立方體與OLAP 4.2.1 數(shù)據(jù)立方體:一種多維數(shù)據(jù)模型 4.2.2 星形、雪花形和事實(shí)星座:多維數(shù)據(jù)模型的模式 4.2.3 維:概念分層的作用 4.2.4 度量的分類(lèi)和計(jì)算 4.2.5 典型的OLAP操作 4.2.6 查詢多維數(shù)據(jù)庫(kù)的星網(wǎng)查詢模型 4.3 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與使用 4.3.1 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)的商務(wù)分析框架 4.3.2 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過(guò)程 4.3.3 數(shù)據(jù)倉(cāng)庫(kù)用于信息處理 4.3.4 從聯(lián)機(jī)分析處理到多維數(shù)據(jù)挖掘 4.4 數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn) 4.4.1 數(shù)據(jù)立方體的有效計(jì)算:概述 4.4.2 索引OLAP數(shù)據(jù):位圖索引和連接索引 4.4.3 OLAP查詢的有效處理 4.4.4 OLAP服務(wù)器結(jié)構(gòu):ROLAP、MOLAP、HOLAP的比較 4.5 數(shù)據(jù)泛化:面向?qū)傩缘臍w納 4.5.1 數(shù)據(jù)特征的面向?qū)傩缘臍w納 4.5.2 面向?qū)傩詺w納的有效實(shí)現(xiàn) 4.5.3 類(lèi)比較的面向?qū)傩詺w納 4.6 小結(jié) 4.7 習(xí)題 4.8 文獻(xiàn)注釋 第5章 數(shù)據(jù)立方體技術(shù) 5.1 數(shù)據(jù)立方體計(jì)算:基本概念 5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼 5.1.2 數(shù)據(jù)立方體計(jì)算的一般策略 5.2 數(shù)據(jù)立方體計(jì)算方法 5.2.1 完全立方體計(jì)算的多路數(shù)組聚集 5.2.2 BUC:從頂點(diǎn)方體向下計(jì)算冰山立方體 5.2.3 Star-Cubing:使用動(dòng)態(tài)星樹(shù)結(jié)構(gòu)計(jì)算冰山立方體 5.2.4 為快速高維OLAP預(yù)計(jì)算殼片段 5.3 使用探索立方體技術(shù)處理高級(jí)查詢 5.3.1 抽樣立方體:樣本數(shù)據(jù)上基于OLAP的挖掘 5.3.2 排序立方體:top-k查詢的有效計(jì)算 5.4 數(shù)據(jù)立方體空間的多維數(shù)據(jù)分析 5.4.1 預(yù)測(cè)立方體:立方體空間的預(yù)測(cè)挖掘 5.4.2 多特征立方體:多粒度上的復(fù)雜聚集 5.4.3 基于異常的、發(fā)現(xiàn)驅(qū)動(dòng)的立方體空間探查 5.5 小結(jié) 5.6 習(xí)題 5.7 文獻(xiàn)注釋 第6章 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性:基本概念和方法 6.1 基本概念 6.1.1 購(gòu)物籃分析:一個(gè)誘發(fā)例子 6.1.2 頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則 6.2 頻繁項(xiàng)集挖掘方法 6.2.1 Apriori算法:通過(guò)限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集 6.2.2 由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則 6.2.3 提高Apriori算法的效率 6.2.4 挖掘頻繁項(xiàng)集的模式增長(zhǎng)方法 6.2.5 使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集 6.2.6 挖掘閉模式和極大模式 6.3 哪些模式是有趣的:模式評(píng)估方法 6.3.1 強(qiáng)規(guī)則不一定是有趣的 6.3.2 從關(guān)聯(lián)分析到相關(guān)分析 6.3.3 模式評(píng)估度量比較 6.4 小結(jié) 6.5 習(xí)題 6.6 文獻(xiàn)注釋 第7章 高級(jí)模式挖掘 7.1 模式挖掘:一個(gè)路線圖 7.2 多層、多維空間中的模式挖掘 7.2.1 挖掘多層關(guān)聯(lián)規(guī)則 7.2.2 挖掘多維關(guān)聯(lián)規(guī)則 7.2.3 挖掘量化關(guān)聯(lián)規(guī)則 7.2.4 挖掘稀有模式和負(fù)模式 7.3 基于約束的頻繁模式挖掘 7.3.1 關(guān)聯(lián)規(guī)則的元規(guī)則制導(dǎo)挖掘 7.3.2 基于約束的模式產(chǎn)生:模式空間剪枝和數(shù)據(jù)空間剪枝 7.4 挖掘高維數(shù)據(jù)和巨型模式 7.5 挖掘壓縮或近似模式 7.5.1 通過(guò)模式聚類(lèi)挖掘壓縮模式 7.5.2 提取感知冗余的top-k模式 7.6 模式探索與應(yīng)用 7.6.1 頻繁模式的語(yǔ)義注解 7.6.2 模式挖掘的應(yīng)用 7.7 小結(jié) 7.8 習(xí)題 7.9 文獻(xiàn)注釋 第8章 分類(lèi):基本概念 8.1 基本概念 8.1.1 什么是分類(lèi) 8.1.2 分類(lèi)的一般方法 8.2 決策樹(shù)歸納 8.2.1 決策樹(shù)歸納 8.2.2 屬性選擇度量 8.2.3 樹(shù)剪枝 8.2.4 可伸縮性與決策樹(shù)歸納 8.2.5 決策樹(shù)歸納的可視化挖掘 8.3 貝葉斯分類(lèi)方法 8.3.1 貝葉斯定理 8.3.2 樸素貝葉斯分類(lèi) 8.4 基于規(guī)則的分類(lèi) 8.4.1 使用IF-THEN規(guī)則分類(lèi) 8.4.2 由決策樹(shù)提取規(guī)則 8.4.3 使用順序覆蓋算法的規(guī)則歸納 8.5 模型評(píng)估與選擇 8.5.1 評(píng)估分類(lèi)器性能的度量 8.5.2 保持方法和隨機(jī)二次抽樣 8.5.3 交叉驗(yàn)證 8.5.4 自助法 8.5.5 使用統(tǒng)計(jì)顯著性檢驗(yàn)選擇模型 8.5.6 基于成本效益和ROC曲線比較分類(lèi)器 8.6 提高分類(lèi)準(zhǔn)確率的技術(shù) 8.6.1 組合分類(lèi)方法簡(jiǎn)介 8.6.2 裝袋 8.6.3 提升和AdaBoost 8.6.4 隨機(jī)森林 8.6.5 提高類(lèi)不平衡數(shù)據(jù)的分類(lèi)準(zhǔn)確率 8.7 小結(jié) 8.8 習(xí)題 8.9 文獻(xiàn)注釋 第9章 分類(lèi):高級(jí)方法 9.1 貝葉斯信念網(wǎng)絡(luò) 9.1.1 概念和機(jī)制 9.1.2 訓(xùn)練貝葉斯信念網(wǎng)絡(luò) 9.2 用后向傳播分類(lèi) 9.2.1 多層前饋神經(jīng)網(wǎng)絡(luò) 9.2.2 定義網(wǎng)絡(luò)拓?fù)?br />9.2.3 后向傳播 9.2.4 黑盒內(nèi)部:后向傳播和可解釋性 9.3 支持向量機(jī) 9.3.1 數(shù)據(jù)線性可分的情況 9.3.2 數(shù)據(jù)非線性可分的情況 9.4 使用頻繁模式分類(lèi) 9.4.1 關(guān)聯(lián)分類(lèi) 9.4.2 基于有區(qū)別力的頻繁模式分類(lèi) 9.5 惰性學(xué)習(xí)法(或從近鄰學(xué)習(xí)) 9.5.1 k-最近鄰分類(lèi) 9.5.2 基于案例的推理 9.6 其他分類(lèi)方法 9.6.1 遺傳算法 9.6.2 粗糙集方法 9.6.3 模糊集方法 9.7 關(guān)于分類(lèi)的其他問(wèn)題 9.7.1 多類(lèi)分類(lèi) 9.7.2 半監(jiān)督分類(lèi) 9.7.3 主動(dòng)學(xué)習(xí) 9.7.4 遷移學(xué)習(xí) 9.8 小結(jié) 9.9 習(xí)題 9.10 文獻(xiàn)注釋 第10章 聚類(lèi)分析:基本概念和方法 10.1 聚類(lèi)分析 10.1.1 什么是聚類(lèi)分析 10.1.2 對(duì)聚類(lèi)分析的要求 10.1.3 基本聚類(lèi)方法概述 10.2 劃分方法 10.2.1 k-均值:一種基于形心的技術(shù) 10.2.2 k-中心點(diǎn):一種基于代表對(duì)象的技術(shù) 10.3 層次方法 10.3.1 凝聚的與分裂的層次聚類(lèi) 10.3.2 算法方法的距離度量 10.3.3 BIRCH:使用聚類(lèi)特征樹(shù)的多階段聚類(lèi) 10.3.4 Chameleon:使用動(dòng)態(tài)建模的多階段層次聚類(lèi) 10.3.5 概率層次聚類(lèi) 10.4 基于密度的方法 10.4.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類(lèi) 10.4.2 OPTICS:通過(guò)點(diǎn)排序識(shí)別聚類(lèi)結(jié)構(gòu) 10.4.3 DENCLUE:基于密度分布函數(shù)的聚類(lèi) 10.5 基于網(wǎng)格的方法 10.5.1 STING:統(tǒng)計(jì)信息網(wǎng)格 10.5.2 CLIQUE:一種類(lèi)似于Apriori的子空間聚類(lèi)方法 10.6 聚類(lèi)評(píng)估 10.6.1 估計(jì)聚類(lèi)趨勢(shì) 10.6.2 確定簇?cái)?shù) 10.6.3 測(cè)定聚類(lèi)質(zhì)量 10.7 小結(jié) 10.8 習(xí)題 10.9 文獻(xiàn)注釋 第11章 高級(jí)聚類(lèi)分析 11.1 基于概率模型的聚類(lèi) 11.1.1 模糊簇 11.1.2 基于概率模型的聚類(lèi) 11.1.3 期望最大化算法 11.2 聚類(lèi)高維數(shù)據(jù) 11.2.1 聚類(lèi)高維數(shù)據(jù):?jiǎn)栴}、挑戰(zhàn)和主要方法 11.2.2 子空間聚類(lèi)方法 11.2.3 雙聚類(lèi) 11.2.4 維歸約方法和譜聚類(lèi) 11.3 聚類(lèi)圖和網(wǎng)絡(luò)數(shù)據(jù) 11.3.1 應(yīng)用與挑戰(zhàn) 11.3.2 相似性度量 11.3.3 圖聚類(lèi)方法 11.4 具有約束的聚類(lèi) 11.4.1 約束的分類(lèi) 11.4.2 具有約束的聚類(lèi)方法 11.5 小結(jié) 11.6 習(xí)題 11.7 文獻(xiàn)注釋 第12章 離群點(diǎn)檢測(cè) 12.1 離群點(diǎn)和離群點(diǎn)分析 12.1.1 什么是離群點(diǎn) 12.1.2 離群點(diǎn)的類(lèi)型 12.1.3 離群點(diǎn)檢測(cè)的挑戰(zhàn) 12.2 離群點(diǎn)檢測(cè)方法 12.2.1 監(jiān)督、半監(jiān)督和無(wú)監(jiān)督方法 12.2.2 統(tǒng)計(jì)方法、基于鄰近性的方法和基于聚類(lèi)的方法 12.3 統(tǒng)計(jì)學(xué)方法 12.3.1 參數(shù)方法 12.3.2 非參數(shù)方法 12.4 基于鄰近性的方法 12.4.1 基于距離的離群點(diǎn)檢測(cè)和嵌套循環(huán)方法 12.4.2 基于網(wǎng)格的方法 12.4.3 基于密度的離群點(diǎn)檢測(cè) 12.5 基于聚類(lèi)的方法 12.6 基于分類(lèi)的方法 12.7 挖掘情境離群點(diǎn)和集體離群點(diǎn) 12.7.1 把情境離群點(diǎn)檢測(cè)轉(zhuǎn)換成傳統(tǒng)的離群點(diǎn)檢測(cè) 12.7.2 關(guān)于情境對(duì)正常行為建模 12.7.3 挖掘集體離群點(diǎn) 12.8 高維數(shù)據(jù)中的離群點(diǎn)檢測(cè) 12.8.1 擴(kuò)充的傳統(tǒng)離群點(diǎn)檢測(cè) 12.8.2 發(fā)現(xiàn)子空間中的離群點(diǎn) 12.8.3 高維離群點(diǎn)建模 12.9 小結(jié) 12.10 習(xí)題 12.11 文獻(xiàn)注釋 第13章 數(shù)據(jù)挖掘的發(fā)展趨勢(shì)和研究前沿 13.1 挖掘復(fù)雜的數(shù)據(jù)類(lèi)型 13.1.1 挖掘序列數(shù)據(jù):時(shí)間序列、符號(hào)序列和生物學(xué)序列 13.1.2 挖掘圖和網(wǎng)絡(luò) 13.1.3 挖掘其他類(lèi)型的數(shù)據(jù) 13.2 數(shù)據(jù)挖掘的其他方法 13.2.1 統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘 13.2.2 關(guān)于數(shù)據(jù)挖掘基礎(chǔ)的觀點(diǎn) 13.2.3 可視和聽(tīng)覺(jué)數(shù)據(jù)挖掘 13.3 數(shù)據(jù)挖掘應(yīng)用 13.3.1 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 13.3.2 零售和電信業(yè)的數(shù)據(jù)挖掘 13.3.3 科學(xué)與工程數(shù)據(jù)挖掘 13.3.4 入侵檢測(cè)和預(yù)防數(shù)據(jù)挖掘 13.3.5 數(shù)據(jù)挖掘與推薦系統(tǒng) 13.4 數(shù)據(jù)挖掘與社會(huì) 13.4.1 普適的和無(wú)形的數(shù)據(jù)挖掘 13.4.2 數(shù)據(jù)挖掘的隱私、安全和社會(huì)影響 13.5 數(shù)據(jù)挖掘的發(fā)展趨勢(shì) 13.6 小結(jié) 13.7 習(xí)題 13.8 文獻(xiàn)注釋 參考文獻(xiàn) 索引
第1章 引論
本書(shū)是一個(gè)導(dǎo)論,介紹一個(gè)年青并且快速成長(zhǎng)的領(lǐng)域——數(shù)據(jù)挖掘(又稱從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),簡(jiǎn)稱KDD)。本書(shū)關(guān)注從各種各樣的應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)有趣數(shù)據(jù)模式的數(shù)據(jù)挖掘基本概念和技術(shù),特別是那些開(kāi)發(fā)有效的、可伸縮的數(shù)據(jù)挖掘工具的卓越技術(shù)。 本章組織如下:在1.1節(jié),我們將學(xué)習(xí)為什么需要數(shù)據(jù)挖掘和數(shù)據(jù)挖掘如何成為信息技術(shù)自然進(jìn)化的一部分。1.2節(jié)從知識(shí)發(fā)現(xiàn)過(guò)程定義數(shù)據(jù)挖掘。之后,我們將從各種角度學(xué)習(xí)數(shù)據(jù)挖掘,如可供挖掘的數(shù)據(jù)(1.3節(jié)),可以發(fā)現(xiàn)的模式(1.4節(jié)),所使用的技術(shù)(1.5節(jié)),以及應(yīng)用(1.6節(jié))。這樣,你將獲得數(shù)據(jù)挖掘的多維視圖。最后,1.7節(jié)概述數(shù)據(jù)挖掘研究和發(fā)展的主要問(wèn)題。 1.1 為什么進(jìn)行數(shù)據(jù)挖掘 需要是發(fā)明之母!乩瓐D 我們生活在大量數(shù)據(jù)日積月累的年代。分析這些數(shù)據(jù)是一種重要需求。1.1.1節(jié)考察數(shù)據(jù)挖掘如何通過(guò)提供從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的工具來(lái)滿足這種需求。在1.1.2節(jié),我們觀察數(shù)據(jù)挖掘?yàn)楹伪灰暈樾畔⒓夹g(shù)的自然進(jìn)化的結(jié)果。 1.1.1 邁向信息時(shí)代 一種流行的說(shuō)法是“我們生活在信息時(shí)代”。然而,實(shí)際上我們生活在數(shù)據(jù)時(shí)代。每天,來(lái)自商業(yè)、社會(huì)、科學(xué)和工程、醫(yī)學(xué)以及我們?nèi)粘I畹姆椒矫婷娴臄?shù)兆兆字節(jié)(Tera-Byte,TB)或數(shù)千兆兆字節(jié)(Peta-Byte,PB)?的數(shù)據(jù)注入我們的計(jì)算機(jī)網(wǎng)絡(luò)、萬(wàn)維網(wǎng)(WWW)和各種數(shù)據(jù)存儲(chǔ)設(shè)備。1可用數(shù)據(jù)的爆炸式增長(zhǎng)是我們的社會(huì)計(jì)算機(jī)化和功能強(qiáng)大的數(shù)據(jù)收集和存儲(chǔ)工具快速發(fā)展的結(jié)果。世界范圍的商業(yè)活動(dòng)產(chǎn)生了巨大的數(shù)據(jù)集,包括銷(xiāo)售事務(wù)、股票交易記錄、產(chǎn)品描述、促銷(xiāo)、公司利潤(rùn)和業(yè)績(jī)以及顧客反饋。例如,像沃爾瑪這樣的大型商場(chǎng)遍及世界各地的數(shù)以千計(jì)的超市每周都要處理數(shù)億交易?茖W(xué)和工程實(shí)踐持續(xù)不斷地從遙感、過(guò)程測(cè)量、科學(xué)實(shí)驗(yàn)、系統(tǒng)實(shí)施、工程觀測(cè)和環(huán)境監(jiān)測(cè)中產(chǎn)生多達(dá)數(shù)千兆兆字節(jié)的數(shù)據(jù)。 ……
你還可能感興趣
我要評(píng)論
|