日本无码人妻一区二区色欲,九九E精品视频

本書通過循序漸進(jìn)的介紹，讓讀者借助基礎(chǔ)以及先進(jìn)的數(shù)據(jù)挖掘技術(shù)，幫助一個(gè)虛擬的商業(yè)公司解決對(duì)其造成負(fù)面影響的真實(shí)欺詐案例。通過全程參與這一極不尋常的數(shù)據(jù)挖掘案例，讀者將會(huì)掌握數(shù)據(jù)挖掘方面的強(qiáng)大技能。本書非常適合想通過R語言快速了解數(shù)據(jù)挖掘、預(yù)測(cè)分析、商業(yè)分析等領(lǐng)域的數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析員閱讀，也適合高等院校數(shù)據(jù)挖掘相關(guān)專業(yè)師生和對(duì)數(shù)據(jù)挖掘感興趣的技術(shù)人員參考。

第 1 章為何選擇 R 語言 1 1.1 什么是 R 語言 1 1.2 R 語言的發(fā)展歷史 2 1.3 R 語言的優(yōu)勢(shì) 2 1.3.1 開源 3 1.3.2 插件就緒 3 1.3.3 數(shù)據(jù)可視化友好 4 1.4 安裝 R 語言、編寫 R 語言代碼 5 1.4.1 下載 R 語言軟件包 5 1.4.2 應(yīng)用于 Windows 平臺(tái)和 MacOS 平臺(tái)的 R 語言軟件包 5 1.4.3 應(yīng)用于 Linux 平臺(tái)的 R 語言軟件包 6 1.4.4 基礎(chǔ)版本 R 語言包安裝的主要組件 6 1.4.5 編寫 R 語言及運(yùn)行 R 語言代碼的替代平臺(tái) 8 1.5 R 語言的基本概念 11 1.5.1 R 語言初級(jí)入門 11 1.5.2 向量（Vector） 14 1.5.3 列表（Lists） 15 1.5.4 數(shù)據(jù)幀（Data frames） 17 1.5.5 函數(shù)（Functions） 18 1.6 R 語言的劣勢(shì)以及如何克服這些劣勢(shì) 20 1.6.1 高效學(xué)習(xí) R 語言，最小化精力投入 21 1.6.2 通過 R 語言操作大型數(shù)據(jù)集 24 1.7 更多參考 25 1.8 小結(jié) 25 第 2 章數(shù)據(jù)挖掘入門-讀者銀行賬戶數(shù)據(jù)分析 26 2.1 獲取并準(zhǔn)備銀行數(shù)據(jù) 26 2.1.1 數(shù)據(jù)模型 27 2.2 使用數(shù)據(jù)透視表匯總數(shù)據(jù) 27 2.2.1 管道操作符簡(jiǎn)介 29 2.2.2 dplyr 程序包簡(jiǎn)介 30 2.2.3 安裝必要程序包并將個(gè)人數(shù)據(jù)加載到 R 語言環(huán)境中 31 2.2.4 確定每月和每天的費(fèi)用總額 32 2.4 使用 ggplot2 程序包對(duì)數(shù)據(jù)進(jìn)行可視化處理 36 2.4.1 數(shù)據(jù)可視化基本原理 36 2.4.2 使用 ggplot 程序包來進(jìn)行數(shù)據(jù)可視化 42 2.5 更多參考 47 2.6 小結(jié) 47 第 3 章數(shù)據(jù)挖掘進(jìn)階-數(shù)據(jù)挖掘標(biāo)準(zhǔn) 流程（CRISP-DM）方法論 49 3.1 數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程（CRISP-DM）方法論之?dāng)?shù)據(jù)挖掘周期 50 3.2 業(yè)務(wù)理解 51 3.3 數(shù)據(jù)理解 51 3.3.1 數(shù)據(jù)收集 52 3.3.2 數(shù)據(jù)描述 52 3.3.3 數(shù)據(jù)探索 53 3.4 數(shù)據(jù)準(zhǔn)備 57 3.5 建模 57 3.5.1 定義數(shù)據(jù)建模策略 58 3.6 評(píng)估 59 3.6.1 聚類評(píng)估 59 3.6.2 分類評(píng)估 60 3.6.3 回歸評(píng)估 60 3.6.4 如何判斷模型性能的充分性 61 3.7 部署 62 3.7.1 部署計(jì)劃開發(fā) 62 3.7.2 維護(hù)計(jì)劃開發(fā) 63 3.8 小結(jié) 64 第4 章保持室內(nèi)整潔-數(shù)據(jù)挖掘架構(gòu) 65 4.1 概述 65 4.2 數(shù)據(jù)源 67 4.2.1 數(shù)據(jù)源類型 68 4.3 數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù) 69 4.3.1 中間層-數(shù)據(jù)集市 70 4.3.2 單層架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù) 70 4.3.3 雙層架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù) 71 4.3.4 三層架構(gòu)的數(shù)據(jù) 倉(cāng)庫(kù) 71 4.3.5 實(shí)際應(yīng)用的技術(shù) 72 4.4 數(shù)據(jù)挖掘引擎 73 4.4.1 解釋器 74 4.4.2 引擎和數(shù)據(jù)倉(cāng)庫(kù)之間的接口 74 4.4.3 數(shù)據(jù)挖掘算法 74 4.5 用戶界面 75 4.5.1 清晰性原則 76 4.6 如何使用 R 語言來創(chuàng)建數(shù)據(jù) 挖掘架構(gòu) 79 4.6.1 數(shù)據(jù)源 79 4.6.2 數(shù)據(jù)倉(cāng)庫(kù) 80 4.6.3 數(shù)據(jù)挖掘引擎 80 4.6.4 用戶界面 81 4.7 更多參考 82 4.8 小結(jié) 82 第 5 章如何解決數(shù)據(jù)挖掘問題-數(shù)據(jù) 清洗和驗(yàn)證 83 5.1 安靜祥和的一天 83 5.2 數(shù)據(jù)清洗 85 5.2.1 Tidy data 框架 85 5.2.2 分析數(shù)據(jù)的結(jié)構(gòu) 87 5.2.3 數(shù)據(jù)整理 93 5.2.4 驗(yàn)證數(shù)據(jù) 99 5.2.5 數(shù)據(jù)合并 109 5.3 更多參考 111 5.4 小結(jié) 111 第 6 章觀察數(shù)據(jù) - 探索性數(shù)據(jù) 分析 113 6.1 匯總 EDA 介紹 113 6.1.1 描述總體分布 114 6.1.2 測(cè)定變量之間的相關(guān)性 124 6.2 圖形化 EDA 130 6.2.1 變量分布可視化 131 6.2.2 變量關(guān)系可視化 136 6.2.3 更多參考 141 6.3 小結(jié) 141 第 7 章最初的猜想-線性回歸 142 7.1 定義數(shù)據(jù)建模策略 143 7.1.1 數(shù)據(jù)建模相關(guān)概念 146 7.2 應(yīng)用線性回歸 148 7.2.1 線性回歸的直觀解釋 149 7.2.2 線性回歸的數(shù)學(xué) 原理 150 7.2.3 如何在 R 語言中使用線性回歸 152 7.3 更多參考 161 7.4 小結(jié) 161 第 8 章淺談模型性能評(píng)估 163 8.1 定義模型性能 163 8.1.1 模型的擬合度與模型的可解釋性 164 8.1.2 使用模型進(jìn)行預(yù)測(cè) 165 8.2 測(cè)量回歸模型的性能 167 8.2.1 均方誤差 167 8.2.2 R 平方 172 8.3 衡量分類問題模型的性能 177 8.3.1 混淆矩陣 178 8.3.2 準(zhǔn)確度 180 8.3.3 靈敏度 182 8.3.4 特異性 182 8.3.5 如何選擇合適的性能統(tǒng)計(jì)指標(biāo) 183 8.4 區(qū)分訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集 184 8.5 更多參考 185 8.6 小結(jié) 185 第 9 章不要放棄-繼續(xù)學(xué)習(xí)包括多元變量的回歸 187 9.1 從簡(jiǎn)單線性回歸到多元線性回歸 188 9.1.1 符號(hào) 188 9.1.2 假設(shè) 188 9.2 降維 191 9.2.1 逐步回歸 192 9.2.2 主成分回歸 196 9.3 使用 R 語言擬合多元線性模型 197 9.3.1 模型擬合 197 9.3.2 變量的假設(shè)驗(yàn)證 200 9.3.3 殘差假設(shè)驗(yàn)證 201 9.3.4 降維 202 9.4 更多參考 208 9.5 小結(jié) 208 第 10 章關(guān)于分類模型問題的不同展望 209 10.1 分類模型是什么？讀者為什么需要分類模型 209 10.1.1 線性回歸應(yīng)用于分類變量的局限性 210 10.1.2 常用的分類算法和模型 211 10.2 邏輯回歸 213 10.2.1 邏輯回歸的原理 213 10.2.2 邏輯回歸的數(shù)學(xué) 原理 215 10.2.3 如何在 R 中應(yīng)用邏輯回歸 218 10.2.4 邏輯回歸結(jié)果的可視化與解釋 224 10.3 支持向量機(jī)（SVM） 228 10.3.1 支持向量機(jī)的原支理 229 10.3.2 在原 R 語言中應(yīng)用支持向量機(jī) 234 10.3.3 理解支持向量機(jī)的結(jié)果 235 10.4 更多參考 238 10.5 小結(jié) 238 第 11 章最后沖刺-隨機(jī)森林和集成學(xué)習(xí) 239 11.1 隨機(jī)森林 239 11.1.1 隨機(jī)森林的構(gòu)建模塊-決策樹簡(jiǎn)介 240 11.1.2 隨機(jī)森林的原理 243 11.1.3 在 R 語言中應(yīng)用隨機(jī) 森林 243 11.1.4 評(píng)估模型的結(jié)果 244 11.2 集成學(xué)習(xí) 249 11.2.1 基礎(chǔ)的集成學(xué)習(xí)技術(shù) 250 11.2.2 采用 R 語言對(duì)數(shù)據(jù)進(jìn)行集成學(xué)習(xí) 250 11.3 在新數(shù)據(jù)上應(yīng)用估計(jì)模型 256 11.3.1 將 predict.glm()函數(shù)用于邏輯模型的預(yù)測(cè) 257 11.3.2 將 predict.randomforest() 用于隨機(jī)森林的預(yù)測(cè) 258 11.3.3 將 predict.svm()函數(shù)應(yīng)用于支持向量機(jī)的預(yù)測(cè) 258 11.4 結(jié)構(gòu)化更加良好的預(yù)測(cè)分析方法 258 11.5 對(duì)預(yù)測(cè)數(shù)據(jù)應(yīng)用集成學(xué)習(xí)中的多數(shù)投票技術(shù) 259 11.6 更多參考 260 11.7 小結(jié) 260 第 12 章尋找罪魁禍?zhǔn)?用 R 語言執(zhí)行文本數(shù)據(jù)挖掘 262 12.1 提取 PDF 文件中的數(shù)據(jù) 262 12.1.1 獲取文檔列表 263 12.1.2 通過 pdf_text()函數(shù)將 PDF 文件讀取到 R 語言環(huán)境 264 12.1.3 使用 for 循環(huán)迭代提取文本 266 12.2 文本情感分析 269 12.3 開發(fā)詞云 272 12.4 N 元組模型（n-grams）分析 274 12.5 網(wǎng)絡(luò)分析 275 12.5.1 從數(shù)據(jù)幀中獲取邊列表 279 12.5.2 使用 ggraph 程序包可視化網(wǎng)絡(luò) 279 12.6 更多參考 283 12.7 小結(jié) 283 第 13 章借助 R Markdown 與股東分享公司現(xiàn)狀 284 13.1 富有說服力的數(shù)據(jù)挖掘報(bào)告之原則 284 13.1.1 清晰闡明目標(biāo) 284 13.1.2 明確陳述假設(shè) 285 13.1.3 數(shù)據(jù)處理過程清晰明了 285 13.1.4 數(shù)據(jù)一致性 286 13.1.5 提供數(shù)據(jù)譜系 286 13.2 編制 R MarkDown 報(bào)告 287 13.3 在 RStudio 中編制 R Markdown 報(bào)告文檔 288 13.3.1 Markdown 簡(jiǎn)介 288 13.3.2 插入代碼塊 289 13.3.3 通過內(nèi)聯(lián) R 語言代碼，在文本中重現(xiàn)代碼的輸出 292 13.3.4 Shiny 簡(jiǎn)介以及 reactivity 框架 293 13.3.5 添加交互式數(shù)據(jù)族譜模塊 297 13.4 渲染和分享 R Markdown 報(bào)告 301 13.4.1 渲染 R Markdown 報(bào)告 301 13.4.2 分享 R Markdown 報(bào)告 301 13.5 更多參考 304 13.6 小結(jié) 304 第 14 章結(jié)語 306 附錄 A 處理日期、相對(duì)路徑和函數(shù) 309 A.1 使用 R 語言處理日期 309 A.2 R 語言中的工作目錄和相對(duì) 路徑 309 A.3 條件聲明 310

你還可能感興趣

我要評(píng)論