XyX性爽欧美,免费尤物视频网址,线观看国产一区二区三区

本書詳細(xì)講述了預(yù)測分析的原理、技術(shù)及實(shí)現(xiàn)，并深入討論了大數(shù)據(jù)。重點(diǎn)著眼于掌握提高開發(fā)、實(shí)行預(yù)測分析所需的6項關(guān)鍵實(shí)用技能。本書還提供了來自市場、醫(yī)療和零售等行業(yè)的真實(shí)案例，有助于讀者針對產(chǎn)品實(shí)現(xiàn)自己的預(yù)測分析。

Preface 前　　言這是另一類關(guān)于預(yù)測分析的書。我寫這本書的初衷是為傳統(tǒng)分析人員介紹一些使用開放源碼工具的預(yù)測分析技術(shù)。
不過，我很快意識到，傳統(tǒng)分析工具的某些特性可以使新一代數(shù)據(jù)科學(xué)家受益。我曾經(jīng)在企業(yè)數(shù)據(jù)解決方案方面做了大量工作，我很有興趣撰寫一些不同類型的主題，如分析方法、敏捷、元數(shù)據(jù)、SQL分析和可重復(fù)的研究，這些研究在一些數(shù)據(jù)科學(xué)/預(yù)測分析書中經(jīng)常被忽略，但對分析項目的成功是至關(guān)重要的。
我還想寫一些很少被提及的分析技術(shù)，這些技術(shù)超出了標(biāo)準(zhǔn)回歸和分類任務(wù)的范圍，例如使用生存分析來預(yù)測客戶流失，使用購物籃分析作為推薦引擎。
由于基于云計算的解決方案已經(jīng)有了很大的進(jìn)展，我認(rèn)為增加一些關(guān)于云分析（大數(shù)據(jù)）的內(nèi)容很重要，所以我加入了一些在Spark環(huán)境中開發(fā)預(yù)測分析解決方案的章節(jié)。
本書的重點(diǎn)之一是觸類旁通，我希望無論你的技術(shù)方向是什么，也無論你如何理解數(shù)據(jù)科學(xué)、預(yù)測分析、大數(shù)據(jù)，甚至是諸如預(yù)測這樣的術(shù)語，都可以在這里找到適合自己需求的內(nèi)容。
此外，作為數(shù)據(jù)科學(xué)團(tuán)隊的一部分，我要向領(lǐng)域?qū)＜覀冎戮础ＭǔＧ闆r下，這些精通領(lǐng)域業(yè)務(wù)知識的分析師沒有耀眼的頭銜，但他們對于分析項目的成功至關(guān)重要。希望我討論的一些話題能打動他們的心弦，讓他們對預(yù)測分析的一些技術(shù)概念更感興趣。
當(dāng)Packt邀請我寫一本關(guān)于預(yù)測分析的書時，我首先想到的是尋找一種優(yōu)秀的開源語言，來彌合傳統(tǒng)分析與當(dāng)今數(shù)據(jù)科學(xué)家之間的鴻溝。我認(rèn)真地考慮過這個問題，是因?yàn)槊糠N語言在如何表達(dá)問題的解決方案方面都有細(xì)微的差別。然而，我決定最終不在意那些細(xì)節(jié)，因?yàn)轭A(yù)測分析這個概念不是依賴于任何一種編程語言的，而且編程語言的選擇通常由個人偏好以及你所在的公司決定。
我最終選擇了R語言，因?yàn)槲业膶I(yè)背景是統(tǒng)計學(xué)，我覺得R語言具有良好的統(tǒng)計學(xué)嚴(yán)謹(jǐn)性，現(xiàn)在它不但已經(jīng)和SAS等適合的軟件做了合理的整合，而且還與關(guān)系數(shù)據(jù)庫系統(tǒng)以及Web協(xié)議有很好的整合。它還具有出色的繪圖和可視化系統(tǒng)，以及用戶貢獻(xiàn)的許多好用的軟件包，涵蓋了大部分的統(tǒng)計和預(yù)測分析功能。
關(guān)于統(tǒng)計數(shù)據(jù)，我建議你盡可能多地學(xué)習(xí)相關(guān)知識。了解統(tǒng)計數(shù)據(jù)可以幫助你區(qū)分優(yōu)良的模型與糟糕的模型，并通過了解基本概念—如中心傾向度量（平均值、中位數(shù)、眾數(shù)）、假設(shè)檢驗(yàn)、p值和效應(yīng)大小—來幫助你識別不良數(shù)據(jù)中的許多問題。如果你了解數(shù)據(jù)統(tǒng)計，將不再僅僅以自動的方式運(yùn)行封裝好的軟件，而是可以多少了解一些底層的運(yùn)行機(jī)制。
R語言的一個缺點(diǎn)是它在內(nèi)存中處理數(shù)據(jù)，因此在單個PC上使用時，軟件會限制數(shù)據(jù)集的大小，使之處理不了更大的數(shù)據(jù)集。對于本書中使用的數(shù)據(jù)集，在單個PC上運(yùn)行R程序來處理應(yīng)該沒有問題。如果你有興趣分析大數(shù)據(jù)，本書將用幾章的篇幅討論在云環(huán)境中的R和Spark，你可以在這些章中看到如何處理分布在許多不同計算機(jī)上的大型數(shù)據(jù)集。
談到本書中使用的數(shù)據(jù)集，我不想使用那些你經(jīng)常看到的、被人們反復(fù)分析的數(shù)據(jù)集。其中一些數(shù)據(jù)集的確非常適合用來演示技術(shù)，但我想要一些新的東西。然而，我沒有看到多少我認(rèn)為對本書有用的數(shù)據(jù)。有些數(shù)據(jù)來源不明，有些需要正式的使用許可，有些缺少好的數(shù)據(jù)字典。所以，在許多章節(jié)中，我最終使用R中的模擬技術(shù)生成自己的數(shù)據(jù)。我覺得這是一個不錯的選擇，因?yàn)榻璐藱C(jī)會我能夠介紹一些可以在工作中使用的數(shù)據(jù)生成技術(shù)。
我使用的數(shù)據(jù)涵蓋了廣泛的范圍，包括市場營銷、零售和醫(yī)療保健應(yīng)用。我本來希望能增加一些財務(wù)方面的預(yù)測分析用例，但時間不夠用了。也許我會把這方面的內(nèi)容留到另一本書中去講！
本書主要內(nèi)容第1章從介紹預(yù)測分析的發(fā)展歷史開始，然后討論預(yù)測分析從業(yè)人員的一些不同角色，并描述他們從事的行業(yè)。接下來討論在PC上組織預(yù)測分析項目的方法，介紹R語言，并以簡短的預(yù)測模型為例結(jié)束該章。
第2章討論如何將預(yù)測模型的開發(fā)過程組織成幾個階段，每個階段都有不同的目標(biāo)，如探索和問題定義，最后是預(yù)測模型的實(shí)際開發(fā)。該章討論兩種重要的分析方法：CRISP-DM和SEMMA。在該章中貫穿了一些示例代碼，以展示一些方法的核心思想，希望你不會感到枯燥。
第3章介紹可以將自己的輸入數(shù)據(jù)引入到R程序中的各種方法。該章還討論使用標(biāo)準(zhǔn)SQL函數(shù)和R dplyr包的各種數(shù)據(jù)預(yù)處理方法。沒有輸入數(shù)據(jù)？沒問題。該章將展示如何使用R語言的wakefield包生成你自己的模擬數(shù)據(jù)。
第4章從對有監(jiān)督算法和無監(jiān)督算法的討論開始。該章的其余部分集中在回歸算法，它是一種代表性的有監(jiān)督算法。你將了解如何解釋回歸算法的輸出，如模型系數(shù)和殘差圖。該章甚至提供一個交互式游戲，利用交互測試，看看你是否能夠辨別一系列的殘差是不是隨機(jī)的。
第5章重點(diǎn)討論另外三種廣泛使用的核心預(yù)測算法，而且把它們與回歸結(jié)合起來，可用于解決許多（可能是大部分）預(yù)測分析問題。該章討論的最后一個算法（支持向量機(jī)（SVM））通常用于諸如非結(jié)構(gòu)化文本之類的高維數(shù)據(jù)，因此示例代碼將附帶使用一些客戶投訴評論的文本挖掘技術(shù)。
第6章討論一種稱為生存分析的具體建模技術(shù)，并展

你還可能感興趣

我要評論