日本精品第一视频在线,天天看黄片

通過做數(shù)據(jù)分析學(xué)習(xí)數(shù)據(jù)分析　　《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》提供了從數(shù)據(jù)準(zhǔn)備到探索性數(shù)據(jù)分析、數(shù)據(jù)建模及模型評估等整個數(shù)據(jù)分析過程的內(nèi)容�！稊�(shù)據(jù)挖掘與預(yù)測分析(第2版)》不僅提供了理解軟件底層算法的白盒方法，而且提供了能夠使讀者利用現(xiàn)實世界數(shù)據(jù)集開展數(shù)據(jù)挖掘與預(yù)測分析的應(yīng)用方法。第2版的新內(nèi)容： ● 添加了500多頁的新內(nèi)容，包括20個新章節(jié)，例如，數(shù)據(jù)建模準(zhǔn)備、成本-效益分析、缺失數(shù)據(jù)填充、聚類優(yōu)劣度量以及細(xì)分模型等。 ● 針對前沿主題的新章節(jié)，例如，多元分類模型、BIRCH聚類、集成學(xué)習(xí)(bagging及boosting)、模型投票與趨向平均等。 ● 每章節(jié)后均附有R語言開發(fā)園地，讀者可以獲得完成書中分析所需的R語言源代碼，以及通過R代碼生成的圖、表和結(jié)果。 ● 書中的附錄為那些對統(tǒng)計基礎(chǔ)生疏的讀者提供了了解基本概念的材料。 ● 超過750個章節(jié)練習(xí)，使讀者能夠自己測試對所學(xué)知識的掌握程度，并著手開展數(shù)據(jù)挖掘與預(yù)測分析工作。　　《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》將對數(shù)據(jù)分析人員、數(shù)據(jù)庫分析人員以及CIO具有極大的吸引力，通過學(xué)習(xí)將使他們知道何種類型的分析將會增加其投資回報。

序言什么是數(shù)據(jù)挖掘？什么是預(yù)測分析數(shù)據(jù)挖掘是從大型數(shù)據(jù)集合中發(fā)現(xiàn)有用的模式和趨勢的過程。預(yù)測分析是從大型數(shù)據(jù)集合中抽取信息以便對未來的情況做出預(yù)測和估計的過程。由Daniel Larose 和 Chantal Larose合著的《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書能夠確保讀者成為這一前沿且大有前途的領(lǐng)域的專家。為什么需要本書根據(jù)MarketsandMarkets研究公司的調(diào)查，從2013年～2018年，全球大數(shù)據(jù)市場有望以每年26%的速度增長，將從2013年的148.7億美元增加到2018年的463.4億美元。世界范圍內(nèi)的公司和團(tuán)體正在學(xué)習(xí)如何應(yīng)用數(shù)據(jù)挖掘和預(yù)測分析以增加利潤。尚未應(yīng)用數(shù)據(jù)挖掘和預(yù)測分析的公司將會在21世紀(jì)經(jīng)濟(jì)的全球競爭中落伍。在大多數(shù)領(lǐng)域中，人類都被數(shù)據(jù)所淹沒。遺憾的是，這些花費(fèi)龐大成本收集得到的數(shù)據(jù)多數(shù)都被遺棄在數(shù)據(jù)倉庫中。問題是，缺乏足夠的、受過良好訓(xùn)練的、具備將這些數(shù)據(jù)轉(zhuǎn)換為人類需要的知識并就此將分類樹轉(zhuǎn)換為智慧的分析人員。這也是編寫本書的目的所在。McKinsey Global Institute報告指出：公司在利用大數(shù)據(jù)的技能需求方面將會存在人才短缺現(xiàn)象。從大數(shù)據(jù)中獲取價值的制約主要體現(xiàn)在缺乏必要的人才，特別是缺乏那些掌握統(tǒng)計和機(jī)器學(xué)習(xí)專門知識的人才，缺乏能夠使用從大數(shù)據(jù)中獲取的見識來運(yùn)營公司的管理人員和分析人員。我們認(rèn)為對大數(shù)據(jù)世界開展分析工作的職位比目前能夠提供的缺少大約140 000～190 000個。此外，我們認(rèn)為在美國額外還將需要150萬位能夠提出正確問題并能夠有效利用大數(shù)據(jù)分析結(jié)果的管理和分析人員。本書試圖幫助解決數(shù)據(jù)分析人員短缺的問題。數(shù)據(jù)挖掘得到越來越廣泛的應(yīng)用，因為它有助于增強(qiáng)公司從其已有的數(shù)據(jù)集合中發(fā)現(xiàn)有利的模式和趨勢的能力。公司和團(tuán)體花費(fèi)了大量的金錢，收集到海量的數(shù)據(jù)，但是未能很好地利用隱藏在其數(shù)據(jù)倉庫中的有價值的和可操作的信息。然而，隨著數(shù)據(jù)挖掘?qū)嵺`變得越來越廣泛，無法應(yīng)用這些技術(shù)的公司將存在落后于市場的危險，將逐漸失去市場份額，因為他們的競爭對手都在使用數(shù)據(jù)挖掘，從而贏得競爭優(yōu)勢。誰將從本書獲益《數(shù)據(jù)挖掘和預(yù)測分析(第2版)》一書通過逐步動手解決現(xiàn)實世界的現(xiàn)實問題，介紹了當(dāng)前廣泛運(yùn)用于現(xiàn)實世界數(shù)據(jù)集合中的數(shù)據(jù)挖掘技術(shù)，這一方式將吸引管理人員、首席信息官、首席執(zhí)行官、首席財務(wù)官、數(shù)據(jù)分析人員、數(shù)據(jù)庫分析人員以及其他需要了解最新方法以提高投資回報率的群體的注意。利用《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》，你將學(xué)習(xí)什么類型的分析能夠從數(shù)據(jù)中發(fā)現(xiàn)最有益的知識，同時避免進(jìn)入可能會導(dǎo)致公司投入大量資金而不能帶來相應(yīng)利益的誤區(qū)。你將通過真正實踐數(shù)據(jù)挖掘和預(yù)測分析來學(xué)習(xí)數(shù)據(jù)挖掘和預(yù)測分析。危險！數(shù)據(jù)挖掘容易被搞砸能夠開展數(shù)據(jù)挖掘工作的新的現(xiàn)有軟件平臺不斷涌現(xiàn)，這將帶來新的危險。這些應(yīng)用處理數(shù)據(jù)非常方便，強(qiáng)大的數(shù)據(jù)挖掘算法以黑盒方式嵌入到軟件中，導(dǎo)致濫用情況出現(xiàn)的比例更高，從而帶來巨大的危險。簡言之，數(shù)據(jù)挖掘工作不容易做好。將強(qiáng)大的模型應(yīng)用于海量數(shù)據(jù)時，一知半解特別危險。例如，對未經(jīng)過預(yù)處理的數(shù)據(jù)開展分析工作可能會得出錯誤的結(jié)論，或者對數(shù)據(jù)集采用不適當(dāng)?shù)姆治龇椒ǎ只蛘吣Ｐ蜆?gòu)建基于完全不正確或似是而非的假設(shè)之上。如果進(jìn)行了部署，分析中存在的這些錯誤可能會讓你付出昂貴的代價�！稊�(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書有助于使你成為一名能夠避免進(jìn)入這些昂貴陷阱的精明的分析人員。白盒方法了解基本算法和模型結(jié)構(gòu)數(shù)據(jù)挖掘和預(yù)測分析出現(xiàn)問題的癥結(jié)在于盲目采用黑盒方法，避免代價昂貴錯誤的最佳方法是轉(zhuǎn)而采用白盒方法，白盒方法強(qiáng)調(diào)要求對軟件中基本算法和統(tǒng)計模型結(jié)構(gòu)的了解。《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》通過如下方式應(yīng)用白盒方法：● 明確地揭示為什么需要運(yùn)用某一特定方法或算法。● 讓讀者了解某個算法或方法是如何工作的，采用實例(小型數(shù)據(jù)集)解釋，以便讀者逐步了解其中的邏輯關(guān)系，從而以白盒方法了解方法或算法的內(nèi)部工作模式�！� 提供將方法應(yīng)用于大型、現(xiàn)實世界數(shù)據(jù)集的實例�！� 通過練習(xí)測試讀者對概念和算法的理解程度�！� 為讀者提供將數(shù)據(jù)挖掘應(yīng)用于大型數(shù)據(jù)集的經(jīng)驗。算法概覽《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》將利用小型數(shù)據(jù)集，指引讀者學(xué)習(xí)各種算法的操作和細(xì)微差異，讓讀者真正理解算法的內(nèi)部工作情況。例如，在第21章中，我們將逐步利用小型數(shù)據(jù)庫，應(yīng)用BIRCH聚類算法(BIRCH是層次聚類的一種方法)學(xué)習(xí)平衡迭代消減和聚類，精確地展示BIRCH如何針對數(shù)據(jù)集選擇優(yōu)化的聚類解決方法。正如我們所知，此類演示是本書針對BIRCH算法的獨(dú)特方法。同樣，在第27章中，我們將通過使用選擇、交叉和變異操作算子，針對小型數(shù)據(jù)集逐步發(fā)現(xiàn)優(yōu)化解決方案，以便讀者能夠更好地理解所涉及的過程。將算法和模型應(yīng)用到大型數(shù)據(jù)庫《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》提供了大量將數(shù)據(jù)分析方法應(yīng)用于大型數(shù)據(jù)庫的示例。例如，第9章通過利用實際數(shù)據(jù)庫，解析營養(yǎng)等級與谷物含量之間的關(guān)系。在第4章中，我們將主成分分析應(yīng)用于實際的加利福尼亞州的人口普查數(shù)據(jù)中。所有數(shù)據(jù)集均可從本書網(wǎng)站www.dataminingconsultant.com中獲得。章節(jié)練習(xí)：檢查并確認(rèn)讀者是否了解了本章內(nèi)容《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書的各章中包含大約750個練習(xí)，有助于讀者了解自己對各章提供材料的理解程度，并從中體驗與數(shù)字和數(shù)據(jù)打交道的樂趣。這些練習(xí)包含概念辨析類型的練習(xí)，可幫助讀者進(jìn)一步梳理清楚數(shù)據(jù)挖掘中某些更具有挑戰(zhàn)性的概念；利用數(shù)據(jù)開展工作的練習(xí)，幫助讀者將特定數(shù)據(jù)挖掘算法應(yīng)用到小型數(shù)據(jù)集中，從而能夠逐步實現(xiàn)較好的解決方案。例如，在第14章中，我們要求讀者通過該章提供的數(shù)據(jù)集獲得最大后驗分類。動手實踐：通過實際編寫數(shù)據(jù)挖掘算法學(xué)習(xí)數(shù)據(jù)挖掘本書大多數(shù)章節(jié)為讀者提供了動手實踐分析問題，為讀者提供了運(yùn)用新學(xué)的數(shù)據(jù)挖掘?qū)I(yè)知識，解決大型數(shù)據(jù)集實際問題的方法。許多人都喜歡邊學(xué)邊做，而《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》為讀者提供了一個邊學(xué)邊做的框架。例如，在第13章中，讀者將采用實際的信用卡審批分類數(shù)據(jù)集，構(gòu)建自己的最佳logistic回歸模型，盡可能利用從該章中學(xué)習(xí)到的方法，提供對模型強(qiáng)大的、可解釋的支持，包括對獲取的變量及標(biāo)識變量的解釋。令人興奮的新主題《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書還提供大量令人興奮的新主題，主要包括：● 通過利用數(shù)據(jù)驅(qū)動的誤分類開銷實現(xiàn)成本-效益分析● 獨(dú)立或多元分類模型的成本-效益分析● 分類模型的圖形化評估方法● BIRCH聚類● 分段模型● 集成方法：bagging和boosting方法● 模型投票與趨向平均● 缺失數(shù)據(jù)的填補(bǔ)方法R語言開發(fā)園地R語言是一種探索及分析數(shù)據(jù)集的功能強(qiáng)大的開源語言。使用R語言的分析人員可以利用大量免費(fèi)的程序包、例程和圖形用戶界面來解決大多數(shù)數(shù)據(jù)分析問題。本書大多數(shù)章節(jié)中都為讀者提供R語言開發(fā)園地，用R語言獲得章節(jié)中涉及內(nèi)容的結(jié)果，以及部分輸出的截圖。附錄：數(shù)據(jù)匯總與可視化一些讀者可能不大容易理解某些統(tǒng)計和圖形化概念，這些概念通常會在統(tǒng)計課程中學(xué)習(xí)�！稊�(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書提供了介紹常見概念和術(shù)語的附錄，為讀者更好地理解本書的相關(guān)材料奠定基礎(chǔ)。案例研究：分析方法匯總《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》最后提供了詳細(xì)的案例研究。通過對案例的研究，讀者能夠了解怎樣將自己從書中學(xué)習(xí)到的方法融會貫通，以建立可操作的、有益的解決方案。詳細(xì)的案例研究包括在以下4章中：● 第29章案例研究，第1部分：業(yè)務(wù)理解、數(shù)據(jù)預(yù)處理和探索性數(shù)據(jù)分析�！� 第30章案例研究，第2部分：聚類與主成分分析�！� 第31章案例研究，第3部分：建模與評估性能和可解釋性。● 第32章案例研究，第4部分：高性能建模與評估案例研究中包含大量圖形、探索數(shù)據(jù)分析、預(yù)測模型、客戶分析，并提供針對不同用戶需求的解決方案。采用定制的數(shù)據(jù)驅(qū)動成本效益表的模型評估方法，反映分類誤差的真正開銷，而不是采用常見的諸如總體誤差率等評估方法。因此，分析人員能夠使用每位客戶接觸的開銷對模型進(jìn)行比較工作，給予接觸客戶的數(shù)量，預(yù)測模型能夠?qū)崿F(xiàn)多少利潤。本書組織結(jié)構(gòu)《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》一書的組織結(jié)構(gòu)有助于讀者直接發(fā)現(xiàn)相關(guān)的邏輯。共設(shè)32章，包含8個主要部分：● 第Ⅰ部分是數(shù)據(jù)準(zhǔn)備，包含有關(guān)數(shù)據(jù)預(yù)處理、探索性數(shù)據(jù)分析、降維方法等章節(jié)�！� 第Ⅱ部分是統(tǒng)計分析，提供開展數(shù)據(jù)分析工作常見的經(jīng)典統(tǒng)計方法，包括單變量統(tǒng)計分析及多元變量統(tǒng)計分析、簡單及多元線性回歸方法、為構(gòu)建模型準(zhǔn)備數(shù)據(jù)、模型構(gòu)建等章節(jié)�！� 第Ⅲ部分是分類，包含9章，是本書涉及內(nèi)容最多的部分：其中包含k-最近鄰算法、決策樹、神經(jīng)元網(wǎng)絡(luò)、logistic回歸、樸素貝葉斯與貝葉斯網(wǎng)絡(luò)、模型評估技術(shù)、基于數(shù)據(jù)驅(qū)動成本的成本-效益分析、二元及k元分類模型、分類模型的圖形化評估等�！� 第Ⅳ部分是聚類，包含層次聚類和k-均值聚類、Kohonen網(wǎng)絡(luò)、BIRCH聚類、度量簇的優(yōu)劣等�！� 第Ⅴ部分是關(guān)聯(lián)規(guī)則，本部分僅包含一章內(nèi)容，涵蓋A Priori關(guān)聯(lián)規(guī)則以及廣義規(guī)則歸納�！� 第Ⅵ部分是模型性能強(qiáng)化，提供細(xì)分模型、集成方法：bagging和boosting、模型投票與趨向平均等章節(jié)�！� 第Ⅶ部分介紹針對預(yù)測建模的其他方法，包括缺失數(shù)據(jù)填補(bǔ)以及遺傳算法等�！� 第Ⅷ部分是案例研究：針對直郵市場的預(yù)測響應(yīng)，包括4章，給出如何從直郵市場營銷活動中獲取最大利潤的完整案例分析方法。軟件本書使用的軟件包括：● IBP SPSS Modeler數(shù)據(jù)挖掘軟件套件● R開放源代碼統(tǒng)計分析軟件● SAS Enterprise Miner● SAS統(tǒng)計分析軟件● Minitab統(tǒng)計分析軟件● Weka開放源代碼數(shù)據(jù)挖掘軟件IBM SPSS Modeler是數(shù)據(jù)挖掘領(lǐng)域應(yīng)用最廣泛的數(shù)據(jù)挖掘軟件套件，該軟件由SPSS開發(fā)(www-01.ibm.com/software/analytics/spss/products/modeler/)，本書采用了其基本軟件。SAS Enterprise Miner比IBM Modeler功能更強(qiáng)大，但學(xué)習(xí)該軟件比較困難。SPSS可以獲得免費(fèi)試用版(通過Google搜索spss即可下載)。Minitab是簡單易用的統(tǒng)計軟件包，可以在該公司提供的網(wǎng)站www.minitab.com下載試用版。Weka：開源軟件Weka機(jī)器學(xué)習(xí)平臺是一種基于GNU通用公共許可證發(fā)布的開源軟件，它包括實現(xiàn)多數(shù)數(shù)據(jù)挖掘任務(wù)所需要的工具集合�！稊�(shù)據(jù)挖掘與預(yù)測分析(第2版)》利用Weka 3.6開發(fā)動手實踐、一步一步實例教程等，該軟件可從本書的相關(guān)網(wǎng)站www.dataminingconsultant.com獲得。讀者可以使用Weka執(zhí)行如下類型的分析：logistic回歸(見第13章)、樸素貝葉斯分類(見第14章)、貝葉斯網(wǎng)絡(luò)分類(見第14章)、遺傳算法(見第27章)。有關(guān)Weka的更多信息可參考www.cs.waikato.ac.nz/ml/weka。作者非常感謝James Steck提供了大量的Weka實例和練習(xí)。James Steck(jame_steck@comcast.net)是2005年康涅狄格州州立中央大學(xué)最早獲得數(shù)據(jù)挖掘?qū)W科碩士學(xué)位的學(xué)生之一，也是最早獲得研究生學(xué)術(shù)研究獎的學(xué)生。本書網(wǎng)站www.dataminingconsultant.com讀者可以獲得由Daniel Larose和Chantal Larose撰寫的、Wiley InterScience出版的數(shù)據(jù)挖掘書籍相關(guān)材料。通過該網(wǎng)站，或掃描本書封底的二維碼，可以下載本書用到的大多數(shù)數(shù)據(jù)集，方便讀者動手實踐開發(fā)各種本書提到的分析方法和模型。網(wǎng)站還包括勘誤表和比較完整的數(shù)據(jù)挖掘相關(guān)資源，涉及數(shù)據(jù)集鏈接、數(shù)據(jù)挖掘研究組鏈接以及相關(guān)的研究論文等。然而，本網(wǎng)站真正強(qiáng)大的原因還在于可供講授本書的教師使用，提供的資源包括：● 所有練習(xí)的答案，包括動手實踐分析。● 各章的PPT，可方便教學(xué)工作�！� 示例數(shù)據(jù)挖掘課程項目，由作者親自編寫，可以在你的課程講授中采用�！� 實際的數(shù)據(jù)集，可用于課程學(xué)習(xí)參考�！� 每章所涉及的網(wǎng)絡(luò)資源。作為教材的《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》自然適合作為1學(xué)期或2學(xué)期課程的課本，2學(xué)期課程內(nèi)容可分為數(shù)據(jù)挖掘介紹和中級數(shù)據(jù)挖掘。教師在授課時可獲得如下好處：● 數(shù)據(jù)挖掘過程介紹。● 白盒方法，強(qiáng)調(diào)理解基本算法的結(jié)構(gòu)：? 利用玩具數(shù)據(jù)集講授算法概覽。? 將算法應(yīng)用于大型數(shù)據(jù)集。? 超過300幅圖、275張表。? 包含750道章節(jié)練習(xí)和動手實踐分析。● 大量令人興奮的新專題，例如基于數(shù)據(jù)驅(qū)動誤分類開銷的成本-效益分析�！� 詳細(xì)的案例研究，有助于融會貫通前28章介紹的內(nèi)容。● 附錄：數(shù)據(jù)匯總與可視化，包含讀者可能比較生疏的統(tǒng)計和圖形方面的概念綜述�！� 對應(yīng)Web網(wǎng)站，提供了上述內(nèi)容詳細(xì)的資源列表。《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》可作為本科高年級或研究生課程內(nèi)容。若先有選修統(tǒng)計方面的課程更好，但并非必需。讀者不需要具備計算機(jī)編程經(jīng)驗或數(shù)據(jù)庫的專門知識。

你還可能感興趣

我要評論