定 價:89 元
叢書名:數(shù)據(jù)分析與決策技術(shù)叢書
- 作者:[美] 拉爾夫·溫特斯(Ralph Winters) 著,劉江一 譯
- 出版時間:2018/7/1
- ISBN:9787111603351
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:C934
- 頁碼:392
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書詳細(xì)講述了預(yù)測分析的原理、技術(shù)及實(shí)現(xiàn),并深入討論了大數(shù)據(jù)。重點(diǎn)著眼于掌握提高開發(fā)、實(shí)行預(yù)測分析所需的6項關(guān)鍵實(shí)用技能。本書還提供了來自市場、醫(yī)療和零售等行業(yè)的真實(shí)案例,有助于讀者針對產(chǎn)品實(shí)現(xiàn)自己的預(yù)測分析。
本書是一本與眾不同的預(yù)測分析書,從技術(shù)和概念的角度介紹了很多不同的主題,如分析方法、敏捷、元數(shù)據(jù)、SQL、抽樣和生存分析等。書中首先簡潔地講述預(yù)測分析的發(fā)展歷史及R安裝基礎(chǔ)知識,然后詳細(xì)介紹預(yù)測分析建模的6個步驟,你將學(xué)習(xí)輸入、清洗以及準(zhǔn)備建模數(shù)據(jù)所需的技巧。作者還探討了為什么協(xié)作非常重要,敏捷迭代建模循環(huán)如何提高你的成功率,使你能順利開發(fā)并部署佳的模型,進(jìn)而在云計算環(huán)境中進(jìn)一步擴(kuò)展你的技能,通過學(xué)習(xí)Databricks和SparkR,你將能夠?qū)A康臄?shù)據(jù)進(jìn)行預(yù)測模型的開發(fā)。
通過閱讀本書,你將:
?掌握如今業(yè)務(wù)上使用的核心預(yù)測分析算法
?學(xué)習(xí)實(shí)現(xiàn)一個成功的預(yù)測分析項目的6個步驟
?根據(jù)需求遴選正確的算法
?使用預(yù)測分析來研究醫(yī)療領(lǐng)域的問題
?實(shí)現(xiàn)預(yù)測分析來挽留和獲得你的客戶
?利用文本挖掘來理解非結(jié)構(gòu)化數(shù)據(jù)
?在個人電腦或者Spark/Hadoop環(huán)境中開發(fā)模型
?為客戶實(shí)現(xiàn)預(yù)測分析產(chǎn)品
Preface 前 言這是另一類關(guān)于預(yù)測分析的書。我寫這本書的初衷是為傳統(tǒng)分析人員介紹一些使用開放源碼工具的預(yù)測分析技術(shù)。
不過,我很快意識到,傳統(tǒng)分析工具的某些特性可以使新一代數(shù)據(jù)科學(xué)家受益。我曾經(jīng)在企業(yè)數(shù)據(jù)解決方案方面做了大量工作,我很有興趣撰寫一些不同類型的主題,如分析方法、敏捷、元數(shù)據(jù)、SQL分析和可重復(fù)的研究,這些研究在一些數(shù)據(jù)科學(xué)/預(yù)測分析書中經(jīng)常被忽略,但對分析項目的成功是至關(guān)重要的。
我還想寫一些很少被提及的分析技術(shù),這些技術(shù)超出了標(biāo)準(zhǔn)回歸和分類任務(wù)的范圍,例如使用生存分析來預(yù)測客戶流失,使用購物籃分析作為推薦引擎。
由于基于云計算的解決方案已經(jīng)有了很大的進(jìn)展,我認(rèn)為增加一些關(guān)于云分析(大數(shù)據(jù))的內(nèi)容很重要,所以我加入了一些在Spark環(huán)境中開發(fā)預(yù)測分析解決方案的章節(jié)。
本書的重點(diǎn)之一是觸類旁通,我希望無論你的技術(shù)方向是什么,也無論你如何理解數(shù)據(jù)科學(xué)、預(yù)測分析、大數(shù)據(jù),甚至是諸如預(yù)測這樣的術(shù)語,都可以在這里找到適合自己需求的內(nèi)容。
此外,作為數(shù)據(jù)科學(xué)團(tuán)隊的一部分,我要向領(lǐng)域?qū)<覀冎戮础MǔG闆r下,這些精通領(lǐng)域業(yè)務(wù)知識的分析師沒有耀眼的頭銜,但他們對于分析項目的成功至關(guān)重要。希望我討論的一些話題能打動他們的心弦,讓他們對預(yù)測分析的一些技術(shù)概念更感興趣。
當(dāng)Packt邀請我寫一本關(guān)于預(yù)測分析的書時,我首先想到的是尋找一種優(yōu)秀的開源語言,來彌合傳統(tǒng)分析與當(dāng)今數(shù)據(jù)科學(xué)家之間的鴻溝。我認(rèn)真地考慮過這個問題,是因?yàn)槊糠N語言在如何表達(dá)問題的解決方案方面都有細(xì)微的差別。然而,我決定最終不在意那些細(xì)節(jié),因?yàn)轭A(yù)測分析這個概念不是依賴于任何一種編程語言的,而且編程語言的選擇通常由個人偏好以及你所在的公司決定。
我最終選擇了R語言,因?yàn)槲业膶I(yè)背景是統(tǒng)計學(xué),我覺得R語言具有良好的統(tǒng)計學(xué)嚴(yán)謹(jǐn)性,現(xiàn)在它不但已經(jīng)和SAS等適合的軟件做了合理的整合,而且還與關(guān)系數(shù)據(jù)庫系統(tǒng)以及Web協(xié)議有很好的整合。它還具有出色的繪圖和可視化系統(tǒng),以及用戶貢獻(xiàn)的許多好用的軟件包,涵蓋了大部分的統(tǒng)計和預(yù)測分析功能。
關(guān)于統(tǒng)計數(shù)據(jù),我建議你盡可能多地學(xué)習(xí)相關(guān)知識。了解統(tǒng)計數(shù)據(jù)可以幫助你區(qū)分優(yōu)良的模型與糟糕的模型,并通過了解基本概念—如中心傾向度量(平均值、中位數(shù)、眾數(shù))、假設(shè)檢驗(yàn)、p值和效應(yīng)大小—來幫助你識別不良數(shù)據(jù)中的許多問題。如果你了解數(shù)據(jù)統(tǒng)計,將不再僅僅以自動的方式運(yùn)行封裝好的軟件,而是可以多少了解一些底層的運(yùn)行機(jī)制。
R語言的一個缺點(diǎn)是它在內(nèi)存中處理數(shù)據(jù),因此在單個PC上使用時,軟件會限制數(shù)據(jù)集的大小,使之處理不了更大的數(shù)據(jù)集。對于本書中使用的數(shù)據(jù)集,在單個PC上運(yùn)行R程序來處理應(yīng)該沒有問題。 如果你有興趣分析大數(shù)據(jù),本書將用幾章的篇幅討論在云環(huán)境中的R和Spark,你可以在這些章中看到如何處理分布在許多不同計算機(jī)上的大型數(shù)據(jù)集。
談到本書中使用的數(shù)據(jù)集,我不想使用那些你經(jīng)常看到的、被人們反復(fù)分析的數(shù)據(jù)集。其中一些數(shù)據(jù)集的確非常適合用來演示技術(shù),但我想要一些新的東西。然而,我沒有看到多少我認(rèn)為對本書有用的數(shù)據(jù)。有些數(shù)據(jù)來源不明,有些需要正式的使用許可,有些缺少好的數(shù)據(jù)字典。所以,在許多章節(jié)中,我最終使用R中的模擬技術(shù)生成自己的數(shù)據(jù)。我覺得這是一個不錯的選擇,因?yàn)榻璐藱C(jī)會我能夠介紹一些可以在工作中使用的數(shù)據(jù)生成技術(shù)。
我使用的數(shù)據(jù)涵蓋了廣泛的范圍,包括市場營銷、零售和醫(yī)療保健應(yīng)用。我本來希望能增加一些財務(wù)方面的預(yù)測分析用例,但時間不夠用了。也許我會把這方面的內(nèi)容留到另一本書中去講!
本書主要內(nèi)容第1章從介紹預(yù)測分析的發(fā)展歷史開始,然后討論預(yù)測分析從業(yè)人員的一些不同角色,并描述他們從事的行業(yè)。接下來討論在PC上組織預(yù)測分析項目的方法,介紹R語言,并以簡短的預(yù)測模型為例結(jié)束該章。
第2章討論如何將預(yù)測模型的開發(fā)過程組織成幾個階段,每個階段都有不同的目標(biāo),如探索和問題定義,最后是預(yù)測模型的實(shí)際開發(fā)。該章討論兩種重要的分析方法:CRISP-DM和SEMMA。在該章中貫穿了一些示例代碼,以展示一些方法的核心思想,希望你不會感到枯燥。
第3章介紹可以將自己的輸入數(shù)據(jù)引入到R程序中的各種方法。該章還討論使用標(biāo)準(zhǔn)SQL函數(shù)和R dplyr包的各種數(shù)據(jù)預(yù)處理方法。沒有輸入數(shù)據(jù)?沒問題。該章將展示如何使用R語言的wakefield包生成你自己的模擬數(shù)據(jù)。
第4章從對有監(jiān)督算法和無監(jiān)督算法的討論開始。該章的其余部分集中在回歸算法,它是一種代表性的有監(jiān)督算法。你將了解如何解釋回歸算法的輸出,如模型系數(shù)和殘差圖。該章甚至提供一個交互式游戲,利用交互測試,看看你是否能夠辨別一系列的殘差是不是隨機(jī)的。
第5章重點(diǎn)討論另外三種廣泛使用的核心預(yù)測算法,而且把它們與回歸結(jié)合起來,可用于解決許多(可能是大部分)預(yù)測分析問題。該章討論的最后一個算法(支持向量機(jī)(SVM))通常用于諸如非結(jié)構(gòu)化文本之類的高維數(shù)據(jù),因此示例代碼將附帶使用一些客戶投訴評論的文本挖掘技術(shù)。
第6章討論一種稱為生存分析的具體建模技術(shù),并展
作者簡介
拉爾夫·溫特斯(Ralph Winters)目前在一家醫(yī)療服務(wù)公司擔(dān)任數(shù)據(jù)架構(gòu)師。他已經(jīng)給很多名列世界500強(qiáng)的大企業(yè)提供過自己在統(tǒng)計和分析方面的經(jīng)驗(yàn),包括金融、市場營銷、保險、醫(yī)療和制藥領(lǐng)域的企業(yè)。他的工作包括很多不同類型的預(yù)測分析項目,包括客戶保留、反洗錢、客戶之聲文本挖掘分析,以及醫(yī)療風(fēng)險和客戶選擇模型。
Contents 目 錄
譯者序
關(guān)于作者
關(guān)于審校者
前言
第1章預(yù)測分析入門 1
1.1許多行業(yè)中都有預(yù)測分析 2
1.1.1市場營銷中的預(yù)測分析 2
1.1.2醫(yī)療中的預(yù)測分析 2
1.1.3其他行業(yè)中的預(yù)測分析 3
1.2技能和角色在預(yù)測分析中都很重要 3
1.3預(yù)測分析軟件 4
1.3.1開源軟件 5
1.3.2閉源軟件 5
1.3.3和平共處 5
1.4其他有用的工具 5
1.4.1超越基礎(chǔ)知識 6
1.4.2數(shù)據(jù)分析/研究 6
1.4.3數(shù)據(jù)工程 6
1.4.4管理 7
1.4.5數(shù)據(jù)科學(xué)團(tuán)隊 7
1.4.6看待預(yù)測分析的兩種不同方式 7
1.5R 8
1.5.1CRAN 8
1.5.2安裝R語言 8
1.5.3其他安裝R語言的方法 8
1.6預(yù)測分析項目是如何組織的 9
1.7圖形用戶界面 10
1.8RStudio入門 11
1.8.1重新布局以保持和示例一致 11
1.8.2部分重要面板的簡要描述 12
1.8.3創(chuàng)建新項目 13
1.9R語言控制臺 14
1.10源代碼窗口 15
1.11第一個預(yù)測模型 16
1.12第二個腳本 18
1.12.1代碼描述 19
1.12.2predict函數(shù) 20
1.12.3檢驗(yàn)預(yù)測誤差 21
1.13 R語言包 22
1.13.1stargazer包 22
1.13.2安裝stargazer包 23
1.13.3保存工作 24
1.14參考資料 24
1.15本章小結(jié) 24
第2章 建模過程 25
2.1結(jié)構(gòu)化方法的優(yōu)點(diǎn) 25
2.2分析過程方法 26
2.2.1CRISP-DM和SEMMA 27
2.2.2CRISP-DM和SEMMA的圖表 27
2.2.3敏捷過程 28
2.2.4六西格瑪和根本原因 28
2.2.5是否需要數(shù)據(jù)抽樣 28
2.2.6使用所有數(shù)據(jù) 29
2.2.7比較樣本與群體 29
2.3第一步:理解業(yè)務(wù) 30
2.4第二步:理解數(shù)據(jù) 36
2.4.1衡量尺度 36
2.4.2單變量分析 38
2.5第三步:數(shù)據(jù)準(zhǔn)備 43
2.6第四步:建模 44
2.6.1具體模型說明 45
2.6.2邏輯回歸 46
2.6.3支持向量機(jī) 47
2.6.4決策樹 47
2.6.5降維技術(shù) 51
2.6.6主成分 51
2.6.7聚類 52
2.6.8時間序列模型 52
2.6.9樸素貝葉斯分類器 53
2.6.10文本挖掘技術(shù) 54
2.7第五步:評估 57
2.7.1模型驗(yàn)證 58
2.7.2曲線下面積 59
2.7.3樣本內(nèi)和樣本外測試、前進(jìn)測試 60
2.7.4訓(xùn)練/測試/驗(yàn)證數(shù)據(jù)集 60
2.7.5時間序列驗(yàn)證 61
2.7.6最佳冠軍模型的基準(zhǔn)測試 61
2.7.7專家意見:人與機(jī)器 61
2.7.8元分析 61
2.7.9飛鏢板方法 61
2.8第六步:部署 62
2.9參考資料 62
2.10本章小結(jié) 62
第3章 輸入和探索數(shù)據(jù) 64
3.1數(shù)據(jù)輸入 64
3.1.1文本文件輸入 65
3.1.2數(shù)據(jù)庫表格 66
3.1.3電子表格文件 67
3.1.4XML和JSON數(shù)據(jù) 67
3.1.5生成你自己的數(shù)據(jù) 68
3.1.6處理大型文件的技巧 68
3.1.7數(shù)據(jù)整理 68
3.2連接數(shù)據(jù) 69
3.2.1使用sqldf函數(shù) 69
3.2.2生成數(shù)據(jù) 70
3.2.3檢查元數(shù)據(jù) 71
3.2.4使用內(nèi)部連接和外部連接來合并數(shù)據(jù) 72
3.2.5識別有多個購買記錄的成員 73
3.2.6清除冗余記錄 74
3.3探索醫(yī)院數(shù)據(jù)集 74
3.3.1str(df)函數(shù)的輸出 74
3.3.2View函數(shù)的輸出 75
3.3.3colnames函數(shù) 75
3.3.4summary函數(shù) 76
3.3.5在瀏覽器中打開文件 77
3.3.6繪制分布圖 77
3.3.7變量的可視化繪圖 78
3.4轉(zhuǎn)置數(shù)據(jù)幀 80
3.5缺失值 84
3.5.1建立缺失值測試數(shù)據(jù)集 84
3.5.2缺失值的不同類型 85
3.5.3糾正缺失值 87
3.5.4使用替換過的值運(yùn)行回歸 90
3.6替換分類變量 91
3.7異常值 91
3.7.1異常值為什么重要 91
3.7.2探測異常值 92
3.8數(shù)據(jù)轉(zhuǎn)換 96
3.8.1生成測試數(shù)據(jù) 97
3.8.2Box-Cox轉(zhuǎn)換 97
3.9變量化簡/變量重要性 98
3.9.1主成分分析法 98
3.9.2全子集回歸 102
3.9.3變量重要性 104
3.10參考資料 106
3.11本章小結(jié) 106
第4章 回歸算法導(dǎo)論 107
4.1監(jiān)督學(xué)習(xí)模型和無監(jiān)督學(xué)習(xí)模型 108
4.1.1監(jiān)督學(xué)習(xí)模型 108
4.1.2無監(jiān)督學(xué)習(xí)模型 108
4.2回歸技術(shù) 109
4.3廣義線性模型 110
4.4邏輯回歸 110
4.4.1比率 111
4.4.2邏輯回歸系數(shù) 111
4.4.3示例:在醫(yī)療中使用邏輯回歸來預(yù)測疼痛閾值 112
4.4.4GLM模型擬合 114
4.4.5檢驗(yàn)殘差項 115
4.4.6添加變量的分布圖 116
4.4.7p值及其效應(yīng)量 117
4.4.8p值及其影響范圍 118
4.4.9變量選擇 119
4.4.10交互 121
4.4.11擬合優(yōu)度統(tǒng)計量 123
4.4.12置信區(qū)間和Wald統(tǒng)計 124
4.4.13基本回歸診斷圖 124
4.4.14分布圖類型描述 124
4.4.15擬合優(yōu)度:Hosmer-Lemeshow檢驗(yàn) 126
4.4.16正則化 127
4.4.17示例:ElasticNet 128
4.4.18選擇一個正確的Lambda 128
4.4.19基于Lambda輸出可能的系數(shù) 129
4.5本章小結(jié) 130
第5章決策樹、聚類和SVM導(dǎo)論 131
5.1決策樹算法 131
5.1.1決策樹的優(yōu)點(diǎn) 131
5.1.2決策樹的缺點(diǎn) 132
5.1.3決策樹的基本概念 132
5.1.4擴(kuò)展樹 132
5.1.5不純度 133
5.1.6控制樹的增長 134
5.1.7決策樹算法的類型 134
5.1.8檢查目標(biāo)變量 135
5.1.9在rpart模型中使用公式符號 135
5.1.10圖的解釋 136
5.1.11輸出決策樹的文本版本 137
5.1.12修剪 138
5.1.13渲染決策樹的其他選項 139
5.2聚類分析 140
5.2.1聚類分析應(yīng)用于多種行業(yè) 140
5.2.2什么是聚類 140
5.2.3聚類的類型 141
5.2.4k均值聚類算