凹凸视频国产福利永久,全免费毛片在线播放

　　在數(shù)據(jù)洪流中沙里淘金，挖掘大數(shù)據(jù)背后的價(jià)值洼地，為企業(yè)帶來(lái)下一個(gè)增長(zhǎng)紅利。
　　在互聯(lián)網(wǎng)風(fēng)氣云涌的時(shí)代，很多企業(yè)擁有數(shù)據(jù)金礦，卻很少能挖出真金白銀。數(shù)據(jù)本身不產(chǎn)生價(jià)值，企業(yè)只有分析和利用大數(shù)據(jù)，才能將散落在各個(gè)平臺(tái)中的數(shù)據(jù)的真正商業(yè)價(jià)值挖掘出來(lái)。數(shù)據(jù)挖掘已成為解決復(fù)雜商業(yè)問(wèn)題、抓住商機(jī)的常用工具。
　　《大數(shù)據(jù)掘金》一書(shū)介紹了數(shù)據(jù)挖掘與分析領(lǐng)域的**案例，揭示了如何系統(tǒng)運(yùn)用數(shù)據(jù)，找出其中隱含的模式與聯(lián)系，幫助你更好的利用收集到的數(shù)據(jù)為自己服務(wù)。
　　在這本書(shū)中，你將見(jiàn)識(shí)數(shù)據(jù)挖掘過(guò)程、方法與技巧當(dāng)前在商業(yè)領(lǐng)域廣闊的應(yīng)用，學(xué)習(xí)使用有效的數(shù)據(jù)管理方法、工具和矩陣，認(rèn)識(shí)文本和網(wǎng)頁(yè)數(shù)據(jù)挖掘，進(jìn)行大數(shù)據(jù)整合以及更多相關(guān)數(shù)據(jù)分析知識(shí)：
　　分析：實(shí)用、有效的分類；
　　數(shù)據(jù)挖掘：將數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí)；
　　應(yīng)用：涉及市場(chǎng)營(yíng)銷、金融、醫(yī)療衛(wèi)生、國(guó)防等領(lǐng)域；
　　方法與標(biāo)準(zhǔn)：KDD、CRISP-DM、SEMMA以及六西格瑪（Six Sigma DMAIC）方法；
　　數(shù)據(jù)與方法：處理結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)；
　　算法與統(tǒng)計(jì)：鄰近算法、神經(jīng)網(wǎng)絡(luò)算法、SVMs；
　　文本分析與挖掘：情感分析、自然語(yǔ)言分析；
　　大數(shù)據(jù)：數(shù)量、種類、速度、真實(shí)性、可變性及價(jià)值。

　　杜爾森·德倫博士的著作簡(jiǎn)明清晰、內(nèi)容豐富，為渴望了解數(shù)據(jù)分析、數(shù)據(jù)挖掘和“大數(shù)據(jù)”的讀者提供了實(shí)用的學(xué)習(xí)工具。在商業(yè)活動(dòng)越來(lái)越復(fù)雜、越來(lái)越趨向全球化的今天，決策者必須依靠現(xiàn)有的信息采取快速準(zhǔn)確的行動(dòng)，現(xiàn)代數(shù)據(jù)挖掘和分析是制定決策所必不可少的。本書(shū)明確了該領(lǐng)域當(dāng)前的最佳做法，向讀者——主要是學(xué)生和從業(yè)者——展示了如何應(yīng)用數(shù)據(jù)的挖掘與分析發(fā)現(xiàn)數(shù)據(jù)隱含的規(guī)律與聯(lián)系，如何利用這些信息改進(jìn)并提升整個(gè)決策過(guò)程。
　　作者選取了適量的概念、技術(shù)和案例幫助讀者真正理解數(shù)據(jù)挖掘技術(shù)的運(yùn)行原理。這些技術(shù)包括：數(shù)據(jù)挖掘過(guò)程、方法與技術(shù)，數(shù)據(jù)的作用與管理，工具與量表，文本與網(wǎng)頁(yè)挖掘，情感分析，以及接下來(lái)與最新大數(shù)據(jù)分析方法的整合。
　　在第1 章中，作者巧妙地將數(shù)據(jù)分析的源頭追溯到了第二次世界大戰(zhàn)時(shí)期（見(jiàn)圖1—2），使用下列期刊的讀者信息作為數(shù)據(jù)：20 世紀(jì)70 年代的《決策支持系統(tǒng)》（Decision Support Systems）、20 世紀(jì)80 年代的《企業(yè)/ 高管IS 系統(tǒng)》（Enterprise/Executive IS Systems）以及我們都聽(tīng)說(shuō)過(guò)的20 世紀(jì)90 年代和21世紀(jì)初期的《商務(wù)智能》（Business Intelligence），最后還有當(dāng)前的《分析》（Analytics）和《大數(shù)據(jù)時(shí)代》（Big Data）。第1 章的內(nèi)容為后續(xù)即將論述的數(shù)據(jù)挖掘打下基礎(chǔ)。
　　在第2 章中，作者對(duì)數(shù)據(jù)挖掘進(jìn)行了簡(jiǎn)明易懂的描述，并進(jìn)行了準(zhǔn)確的分類，將數(shù)據(jù)挖掘與其他幾個(gè)相關(guān)的術(shù)語(yǔ)區(qū)分開(kāi)來(lái)，明確表示了數(shù)據(jù)挖掘的實(shí)際意義是發(fā)現(xiàn)知識(shí)。認(rèn)識(shí)到數(shù)據(jù)挖掘?qū)嵸|(zhì)上是在堅(jiān)持許多原則的基礎(chǔ)上解決問(wèn)題與制定決策，無(wú)疑是思維上的一次洗禮，許多人都認(rèn)為數(shù)據(jù)挖掘本身是一種新概念。這一章運(yùn)用現(xiàn)實(shí)生活中的真實(shí)案例、具有啟發(fā)性的圖表以及平實(shí)的語(yǔ)言，向廣大讀者揭開(kāi)了數(shù)據(jù)挖掘的神秘面紗。這種方法十分巧妙，將數(shù)據(jù)挖掘這樣看似復(fù)雜而又富有技術(shù)含量的話題介紹給了普羅大眾。
　　在第3 章中，德倫博士以淺顯易懂的形式向讀者展示了規(guī)范數(shù)據(jù)挖掘過(guò)程的不同方法。該章介紹的第一種方法是數(shù)據(jù)庫(kù)知識(shí)獲�。↘nowledge Discovery in Database，KDD），這種方法由業(yè)界先驅(qū)尤薩馬·法雅德（Usama Fayyad）首創(chuàng)。德倫博士在討論中展示了KDD 技術(shù)，并用圖表加以說(shuō)明（見(jiàn)圖3—1），清楚地顯示了運(yùn)用KDD 技術(shù)進(jìn)行數(shù)據(jù)挖掘的過(guò)程。與此同時(shí)，這一章還介紹了眾多團(tuán)體或個(gè)人提出的其他數(shù)據(jù)挖掘方案，這些方案共同構(gòu)成了數(shù)據(jù)挖掘這一領(lǐng)域基本思想的沿革發(fā)展。為了顯示這些方案的實(shí)用性，德倫博士還在最后提供了一個(gè)案例研究——“挖掘癌癥數(shù)據(jù)，獲取最新知識(shí)”。
　　第4 章主要研究數(shù)據(jù)挖掘中使用到的數(shù)據(jù)，包括目前越來(lái)越頻繁使用的文本數(shù)據(jù)（即非結(jié)構(gòu)化、非數(shù)字性的數(shù)據(jù)，占當(dāng)今世界可用數(shù)據(jù)的近90%）。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘最重要的一步，要建立實(shí)際可用的模型，所用的數(shù)據(jù)必須經(jīng)過(guò)處理統(tǒng)計(jì)，否則就像俗語(yǔ)中說(shuō)的“無(wú)用輸入，無(wú)用輸出”。因此，在數(shù)據(jù)挖掘過(guò)程中近乎90% 以上的時(shí)間都花在了數(shù)據(jù)準(zhǔn)備這一環(huán)節(jié)。德倫博士竭盡所能采取種種方法統(tǒng)計(jì)整理數(shù)據(jù)，為進(jìn)一步的數(shù)據(jù)分析做好準(zhǔn)備，這些準(zhǔn)備包括打造數(shù)據(jù)鏈，測(cè)試數(shù)據(jù)組，為學(xué)習(xí)者提供最人性化的k 倍交叉核實(shí)界面（見(jiàn)圖4—6）。
　　在第5 章中，德倫博士介紹了最常見(jiàn)的數(shù)據(jù)挖掘運(yùn)算，其講解簡(jiǎn)明易懂，外行人也能看出門(mén)道。此外，他還全面介紹了神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)（Support Vector Machines，SVM），使這些原本晦澀難懂的數(shù)學(xué)工具變得生動(dòng)易學(xué)。其中，德倫博士親自設(shè)計(jì)的演算示例也讓本書(shū)物超所值。
　　第6 章詳細(xì)講述了文本挖掘（即文本分析）。一開(kāi)始，德倫博士引用了我們?cè)?012 年出版的《實(shí)用數(shù)據(jù)挖掘》（Practical Data Mining，我本人是這本書(shū)的主編）首次使用的圖表。博士成功地將我們1 100 頁(yè)的著作濃縮成短短一章——事實(shí)上，這樣的濃縮版本對(duì)初學(xué)者而言更有意義。干得漂亮，德倫！
　　最后，在第7 章中，德倫博士介紹了當(dāng)前分析領(lǐng)域一個(gè)炙手可熱的名詞——大數(shù)據(jù)分析。我們幾乎每天都能在新聞中聽(tīng)到“大數(shù)據(jù)”這個(gè)詞，它到底是什么意思呢？對(duì)不同的人而言，這個(gè)詞有著不同的含義。但作為一個(gè)在數(shù)據(jù)挖掘領(lǐng)域活躍了15 年以上的人，我可以說(shuō)每時(shí)每刻都與大數(shù)據(jù)打交道。數(shù)據(jù)存儲(chǔ)空間的成本越來(lái)越低，云存儲(chǔ)逐漸進(jìn)入人們的生活，一臺(tái)小小的筆記本電腦都能夠進(jìn)行數(shù)據(jù)分析中的分配步驟和多線程運(yùn)算。輕薄的平板電腦甚至能夠勝過(guò)幾十年前存放在開(kāi)著冷氣的庫(kù)房中的主服務(wù)器�，F(xiàn)在人們甚至可以用智能手機(jī)管理幾個(gè)服務(wù)器和云存儲(chǔ)。數(shù)據(jù)正日漸變“大”，而處理數(shù)據(jù)所需的物理實(shí)體卻越來(lái)越“小”。
　　但是大多數(shù)人對(duì)大數(shù)據(jù)都存在著誤解，至少在我看來(lái)是這樣的。許多人認(rèn)為數(shù)據(jù)挖掘必須用到大數(shù)據(jù)。我與住院醫(yī)師有過(guò)10 年的合作，他們希望在為期一年的項(xiàng)目中研究盡可能多的案例，但在有限的時(shí)間內(nèi)只能找到一部分所需的材料。以傳統(tǒng)統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)來(lái)看，這些小型數(shù)據(jù)組的研究是沒(méi)有任何意義的，但是我發(fā)現(xiàn)，使用工具學(xué)習(xí)這種現(xiàn)代數(shù)據(jù)挖掘方法，往往能夠從小數(shù)據(jù)組中得到有用的假設(shè)，獲得從前使用傳統(tǒng)費(fèi)雪學(xué)派p 值統(tǒng)計(jì)法不可能得到的信息。在20世紀(jì)，傳統(tǒng)統(tǒng)計(jì)學(xué)還被認(rèn)為是非主流的統(tǒng)計(jì)方法，而在20 世紀(jì)以前，貝葉斯統(tǒng)計(jì)法（Bayesian statistics）曾統(tǒng)領(lǐng)了數(shù)據(jù)分析領(lǐng)域長(zhǎng)達(dá)幾百年之久。隨著21 世紀(jì)的到來(lái)，貝葉斯統(tǒng)計(jì)的現(xiàn)代形式，包括SVM、NN 及其他工具學(xué)習(xí)模型卷土重來(lái)，我們又回到了貝葉斯的時(shí)代。雖然對(duì)于“傳統(tǒng)統(tǒng)計(jì)訓(xùn)練”而言，還需要一定時(shí)間來(lái)理解和跟上時(shí)代的潮流，但是統(tǒng)計(jì)領(lǐng)域的前沿陣地?zé)o疑是屬于貝葉斯統(tǒng)計(jì)法、數(shù)據(jù)挖掘和大數(shù)據(jù)的。
　　所有想要了解數(shù)據(jù)挖掘并在這一方面掌握一技之長(zhǎng)的讀者都應(yīng)該選擇這本書(shū)，當(dāng)閱讀到本書(shū)的最后一頁(yè)就會(huì)發(fā)現(xiàn)，你已經(jīng)完全了解這一領(lǐng)域，如蛹化蝶飛。
　　加里·麥尼博士（Dr. Gary D. Miner）
　　戴爾信息管理集團(tuán)軟件事業(yè)部
　　高級(jí)分析師、醫(yī)療保健應(yīng)用專家
　�。ㄆ鋬刹恐髟�(jīng)獲得PROSE 獎(jiǎng)）
　　……

你還可能感興趣

我要評(píng)論