R語(yǔ)言商務(wù)數(shù)據(jù)分析實(shí)戰(zhàn)
定 價(jià):45 元
叢書名:大數(shù)據(jù)人才培養(yǎng)規(guī)劃教材
- 作者:韓寶國(guó) 張良均
- 出版時(shí)間:2018/4/1
- ISBN:9787115474483
- 出 版 社:人民郵電出版社
- 中圖法分類:F712.3-39*
- 頁(yè)碼:228
- 紙張:
- 版次:01
- 開本:16開
本書以任務(wù)為導(dǎo)向,較為全面地介紹了商務(wù)領(lǐng)域中R語(yǔ)言數(shù)據(jù)分析的應(yīng)用。全書共9章,介紹商務(wù)領(lǐng)域不同方向項(xiàng)目的數(shù)據(jù)分析方法,具體內(nèi)容包括R語(yǔ)言數(shù)據(jù)分析概述、商品零售購(gòu)物籃分析、航空公司客戶價(jià)本書以任務(wù)為導(dǎo)向,較為全面地介紹了商務(wù)領(lǐng)域中R語(yǔ)言數(shù)據(jù)分析的應(yīng)用。全書共9章,介紹商務(wù)領(lǐng)域不同方向項(xiàng)目的數(shù)據(jù)分析方法,具體內(nèi)容包括R語(yǔ)言數(shù)據(jù)分析概述、商品零售購(gòu)物籃分析、航空公司客戶價(jià)值分析、財(cái)政收入預(yù)測(cè)分析、金融服務(wù)機(jī)構(gòu)資金流量預(yù)測(cè)、P2P信用貸款風(fēng)險(xiǎn)控制、電子商務(wù)網(wǎng)站智能推薦服務(wù)、電商產(chǎn)品評(píng)論數(shù)據(jù)情感分析、餐飲企業(yè)綜合分析。除第 1章外,本書各章都包含了實(shí)訓(xùn)與課后習(xí)題,通過(guò)練習(xí)和操作實(shí)踐,幫助讀者鞏固所學(xué)的內(nèi)容。值分析、財(cái)政收入預(yù)測(cè)分析、金融服務(wù)機(jī)構(gòu)資金流量預(yù)測(cè)、P2P信用貸款風(fēng)險(xiǎn)控制、電子商務(wù)網(wǎng)站智能推薦服務(wù)、電商產(chǎn)品評(píng)論數(shù)據(jù)情感分析、餐飲企業(yè)綜合分析。本書的每個(gè)章節(jié)都包含了實(shí)訓(xùn)與課后習(xí)題,通過(guò)練習(xí)和操作實(shí)踐,幫助讀者鞏固所學(xué)的內(nèi)容。
大數(shù)據(jù)專家張良均領(lǐng)銜暢銷書作者團(tuán)隊(duì),教育部長(zhǎng)江學(xué)者特聘教授、國(guó)家杰出青年基金獲得者、IEEE Fellow、華南理工大學(xué)計(jì)算機(jī)與工程學(xué)院院長(zhǎng)張軍傾力推薦。
本書采用了以任務(wù)為導(dǎo)向的教學(xué)模式,按照解決實(shí)際任務(wù)的工作流程路線,逐步展開介紹相關(guān)的理論知識(shí)點(diǎn),推導(dǎo)生成可行的解決方案,落實(shí)在任務(wù)實(shí)現(xiàn)環(huán)節(jié)。
全書大部分章節(jié)緊扣任務(wù)需求展開,不堆積知識(shí)點(diǎn),著重于解決問(wèn)題時(shí)思路的啟發(fā)與方案的實(shí)施。通過(guò)從任務(wù)需求到實(shí)現(xiàn)這一完整工作流程的體驗(yàn),幫助讀者真正理解與消化R語(yǔ)言數(shù)據(jù)分析。
書中案例全部源于企業(yè)真實(shí)項(xiàng)目,可操作性強(qiáng),引導(dǎo)讀者融會(huì)貫通,并提供源代碼等相關(guān)學(xué)習(xí)資源,幫助讀者快速掌握R語(yǔ)言數(shù)據(jù)分析相關(guān)技能。
張良均,高 級(jí)信息系統(tǒng)項(xiàng)目管理師,泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽(www.tipdm.org)發(fā)起人。華南師范大學(xué)、廣東工業(yè)大學(xué)兼職教授,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)理事。兼有大型高科技企業(yè)和高校的工作經(jīng)歷,主要從事大數(shù)據(jù)挖掘及其應(yīng)用的策劃、研發(fā)及咨詢培訓(xùn)。全國(guó)計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試?yán)^續(xù)教育和CDA數(shù)據(jù)分析師培訓(xùn)講師。發(fā)表數(shù)據(jù)挖掘相關(guān)論文數(shù)二十余篇,已取得國(guó)家發(fā)明專利12項(xiàng),主編《Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》《R語(yǔ)言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》等多本暢銷圖書,主持并完成科技項(xiàng)目9項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書,具有電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景。行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景。
第 1章 R語(yǔ)言數(shù)據(jù)分析概述 1
任務(wù)1.1 認(rèn)識(shí)數(shù)據(jù)分析 1
1.1.1 掌握數(shù)據(jù)分析的概念 1
1.1.2 熟悉數(shù)據(jù)分析的流程 2
1.1.3 了解數(shù)據(jù)分析應(yīng)用場(chǎng)景 4
任務(wù)1.2 熟悉R語(yǔ)言數(shù)據(jù)分析工具 5
1.2.1 了解數(shù)據(jù)分析常用工具 6
1.2.2 了解R語(yǔ)言數(shù)據(jù)分析的優(yōu)勢(shì) 6
1.2.3 了解R語(yǔ)言數(shù)據(jù)分析常用的Packages 7
小結(jié) 10
課后習(xí)題 10
第 2章 商品零售購(gòu)物籃分析 12
任務(wù)2.1 了解購(gòu)物籃分析 12
2.1.1 分析商品零售企業(yè)現(xiàn)狀 12
2.1.2 了解某商品零售企業(yè)基本數(shù)據(jù)情況 13
2.1.3 熟悉購(gòu)物籃分析的步驟與流程 13
任務(wù)2.2 分析商品銷售狀況 14
2.2.1 分析熱銷商品 14
2.2.2 分析商品結(jié)構(gòu) 15
2.2.3 任務(wù)實(shí)現(xiàn) 17
任務(wù)2.3 使用Apriori關(guān)聯(lián)規(guī)則構(gòu)建購(gòu)物籃分析模型 18
2.3.1 了解Apriori算法的基本原理與使用方法 18
2.3.2 分析結(jié)果 23
2.3.3 任務(wù)實(shí)現(xiàn) 24
小結(jié) 24
實(shí)訓(xùn) 使用Apriori算法對(duì)西餅屋訂單進(jìn)行關(guān)聯(lián)分析 25
課后習(xí)題 25
第3章 航空公司客戶價(jià)值分析 28
任務(wù)3.1 了解航空公司現(xiàn)狀與客戶價(jià)值分析 28
3.1.1 了解航空公司現(xiàn)狀 28
3.1.2 了解客戶價(jià)值分析 30
3.1.3 熟悉航空客戶價(jià)值分析的步驟與流程 30
任務(wù)3.2 預(yù)處理航空客戶數(shù)據(jù) 31
3.2.1 處理數(shù)據(jù)缺失值與異常值 31
3.2.2 構(gòu)建航空客戶價(jià)值分析的關(guān)鍵特征 31
3.2.3 標(biāo)準(zhǔn)化LRFMC的5個(gè)特征 35
3.2.4 任務(wù)實(shí)現(xiàn) 36
任務(wù)3.3 使用K-Means算法進(jìn)行客戶分群 37
3.3.1 了解K-Means聚類算法 37
3.3.2 分析聚類結(jié)果 38
3.3.3 模型應(yīng)用 41
3.3.4 任務(wù)實(shí)現(xiàn) 42
小結(jié) 43
實(shí)訓(xùn) 43
實(shí)訓(xùn)1 處理信用卡數(shù)據(jù)異常值 43
實(shí)訓(xùn)2 構(gòu)造信用卡客戶風(fēng)險(xiǎn)評(píng)價(jià)關(guān)鍵特征 45
實(shí)訓(xùn)3 構(gòu)建K-Means聚類模型 45
課后習(xí)題 46
第4章 財(cái)政收入預(yù)測(cè)分析 48
任務(wù)4.1 了解財(cái)政收入預(yù)測(cè)的背景與方法 48
4.1.1 分析財(cái)政收入預(yù)測(cè)背景 48
4.1.2 了解財(cái)政收入預(yù)測(cè)的方法 50
4.1.3 熟悉財(cái)政收入預(yù)測(cè)的步驟與流程 51
任務(wù)4.2 分析財(cái)政收入數(shù)據(jù)特征的相關(guān)性 51
4.2.1 了解相關(guān)性分析 51
4.2.2 分析計(jì)算結(jié)果 52
4.2.3 任務(wù)實(shí)現(xiàn) 53
任務(wù)4.3 使用Lasso回歸方法選取財(cái)政收入預(yù)測(cè)的關(guān)鍵特征 53
4.3.1 了解Lasso回歸方法 53
4.3.2 分析Lasso回歸結(jié)果 54
4.3.3 任務(wù)實(shí)現(xiàn) 54
任務(wù)4.4 使用灰色預(yù)測(cè)和SVR構(gòu)建財(cái)政收入預(yù)測(cè)模型 55
4.4.1 了解灰色預(yù)測(cè)算法 55
4.4.2 了解SVR算法 56
4.4.3 分析預(yù)測(cè)結(jié)果 58
4.4.4 任務(wù)實(shí)現(xiàn) 60
小結(jié) 61
實(shí)訓(xùn) 61
實(shí)訓(xùn)1 求取企業(yè)所得稅各特征間的相關(guān)系數(shù) 61
實(shí)訓(xùn)2 選取企業(yè)所得稅預(yù)測(cè)關(guān)鍵特征 62
實(shí)訓(xùn)3 構(gòu)建企業(yè)所得稅預(yù)測(cè)模型 62
課后習(xí)題 62
第5章 金融服務(wù)機(jī)構(gòu)資金流量預(yù)測(cè) 64
任務(wù)5.1 了解金融服務(wù)機(jī)構(gòu)現(xiàn)狀與資金流量預(yù)測(cè) 64
5.1.1 分析金融服務(wù)機(jī)構(gòu)現(xiàn)狀 64
5.1.2 認(rèn)識(shí)資金流量預(yù)測(cè) 65
5.1.3 熟悉金融服務(wù)機(jī)構(gòu)資金流量預(yù)測(cè)的步驟與流程 66
任務(wù)5.2 檢驗(yàn)數(shù)據(jù)的平穩(wěn)性 67
5.2.1 檢驗(yàn)平穩(wěn)性 67
5.2.2 處理非平穩(wěn)序列 69
5.2.3 任務(wù)實(shí)現(xiàn) 71
任務(wù)5.3 檢驗(yàn)數(shù)據(jù)的純隨機(jī)性 72
5.3.1 了解純隨機(jī)性檢驗(yàn) 73
5.3.2 檢驗(yàn)純隨機(jī)性 73
5.3.3 任務(wù)實(shí)現(xiàn) 74
任務(wù)5.4 建立ARIMA模型 74
5.4.1 了解ARIMA模型 74
5.4.2 識(shí)別模型階數(shù) 75
5.4.3 建立ARIMA模型 76
5.4.4 任務(wù)實(shí)現(xiàn) 81
小結(jié) 83
實(shí)訓(xùn) 83
實(shí)訓(xùn)1 檢驗(yàn)資金贖回?cái)?shù)據(jù)的平穩(wěn)性與純隨機(jī)性 83
實(shí)訓(xùn)2 識(shí)別資金贖回?cái)?shù)據(jù)集的階數(shù) 83
實(shí)訓(xùn)3 構(gòu)建ARIMA模型 83
課后習(xí)題 84
第6章 P2P信用貸款風(fēng)險(xiǎn)控制 85
任務(wù)6.1 認(rèn)識(shí)P2P信貸行業(yè)的風(fēng)險(xiǎn)控制 85
6.1.1 分析P2P信貸行業(yè)的現(xiàn)狀 86
6.1.2 了解某P2P平臺(tái)數(shù)據(jù)情況 86
6.1.3 熟悉用戶逾期預(yù)測(cè)的步驟與流程 87
任務(wù)6.2 探索P2P信貸用戶逾期的相關(guān)因素 88
6.2.1 分析用戶信息完善程度與逾期率的關(guān)系 88
6.2.2 分析用戶信息修改情況與逾期率的關(guān)系 89
6.2.3 分析用戶所在區(qū)域經(jīng)濟(jì)發(fā)展情況與逾期率的關(guān)系 90
6.2.4 分析借款月份與逾期率的關(guān)系 91
6.2.5 任務(wù)實(shí)現(xiàn) 92
任務(wù)6.3 預(yù)處理P2P信貸用戶數(shù)據(jù) 95
6.3.1 使用第三方平臺(tái)信息構(gòu)建新特征 95
6.3.2 對(duì)登錄信息表與更新信息表進(jìn)行長(zhǎng)寬表轉(zhuǎn)換 95
6.3.3 清洗P2P信貸數(shù)據(jù) 97
6.3.4 任務(wù)實(shí)現(xiàn) 98
任務(wù)6.4 構(gòu)建用戶逾期還款概率預(yù)測(cè)模型 107
6.4.1 了解GBM算法 107
6.4.2 評(píng)價(jià)GBM模型 108
6.4.3 分析結(jié)果 109
6.4.4 任務(wù)實(shí)現(xiàn) 109
小結(jié) 111
實(shí)訓(xùn) 111
實(shí)訓(xùn)1 探索某銀行貸款數(shù)據(jù)規(guī)律 111
實(shí)訓(xùn)2 預(yù)處理某銀行貸款數(shù)據(jù) 111
實(shí)訓(xùn)3 使用GBM算法構(gòu)建信貸審批模型 111
課后習(xí)題 112
第7章 電子商務(wù)網(wǎng)站智能推薦服務(wù) 113
任務(wù)7.1 了解某網(wǎng)站現(xiàn)狀與智能推薦系統(tǒng) 113
7.1.1 分析某網(wǎng)站現(xiàn)狀 113
7.1.2 了解智能推薦服務(wù) 115
7.1.3 熟悉網(wǎng)站智能推薦的步驟與流程 116
任務(wù)7.2 使用R連接數(shù)據(jù)庫(kù)并提取數(shù)據(jù) 117
7.2.1 訪問(wèn)數(shù)據(jù)庫(kù) 117
7.2.2 任務(wù)實(shí)現(xiàn) 118
任務(wù)7.3 統(tǒng)計(jì)網(wǎng)頁(yè)整體流量狀況 118
7.3.1 分析網(wǎng)頁(yè)類型 119
7.3.2 分析網(wǎng)頁(yè)點(diǎn)擊次數(shù) 122
7.3.3 分析網(wǎng)頁(yè)排名 123
7.3.4 任務(wù)實(shí)現(xiàn) 124
任務(wù)7.4 預(yù)處理網(wǎng)頁(yè)瀏覽數(shù)據(jù) 130
7.4.1 刪除不符合規(guī)則的網(wǎng)頁(yè) 130
7.4.2 還原翻頁(yè)網(wǎng)址 131
7.4.3 劃分正確的網(wǎng)頁(yè)類別 131
7.4.4 選擇用戶和用戶訪問(wèn)網(wǎng)頁(yè)記錄 132
7.4.5 任務(wù)實(shí)現(xiàn) 133
任務(wù)7.5 構(gòu)建智能推薦模型 136
7.5.1 了解協(xié)同過(guò)濾算法 136
7.5.2 評(píng)價(jià)智能推薦模型 139
7.5.3 分析模型結(jié)果 142
7.5.4 任務(wù)實(shí)現(xiàn) 142
小結(jié) 144
實(shí)訓(xùn) 實(shí)現(xiàn)MovieLense電影數(shù)據(jù)的智能推薦 144
實(shí)訓(xùn)1 清洗MovieLense原始數(shù)據(jù) 144
實(shí)訓(xùn)2 構(gòu)建MovieLense智能推薦模型 144
實(shí)訓(xùn)3 評(píng)估推薦系統(tǒng)模型 145
課后習(xí)題 145
第8章 電商產(chǎn)品評(píng)論數(shù)據(jù)情感分析 147
任務(wù)8.1 了解電商企業(yè)現(xiàn)狀與文本情感分析流程 147
8.1.1 分析電商企業(yè)現(xiàn)狀 147
8.1.2 了解電商產(chǎn)品評(píng)論數(shù)據(jù) 148
8.1.3 實(shí)現(xiàn)電商評(píng)論數(shù)據(jù)情感分析的步驟與流程 149
任務(wù)8.2 獲取電商產(chǎn)品評(píng)論數(shù)據(jù) 149
8.2.1 了解R語(yǔ)言獲取網(wǎng)絡(luò)數(shù)據(jù)的方法 149
8.2.2 了解數(shù)據(jù)獲取的方法 151
8.2.3 任務(wù)實(shí)現(xiàn) 153
任務(wù)8.3 對(duì)電商產(chǎn)品評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理 156
8.3.1 去除評(píng)論數(shù)據(jù)中的重復(fù)數(shù)據(jù) 156
8.3.2 清洗評(píng)論數(shù)據(jù) 156
8.3.3 對(duì)評(píng)論數(shù)據(jù)進(jìn)行分詞 157
8.3.4 去除停用詞 158
8.3.5 提取有意義的評(píng)論 159
8.3.6 繪制詞云查看分詞效果 160
8.3.7 任務(wù)實(shí)現(xiàn) 162
任務(wù)8.4 評(píng)論數(shù)據(jù)情感傾向分析 163
8.4.1 匹配情感詞 164
8.4.2 修正情感傾向 164
8.4.3 檢驗(yàn)情感分析效果 164
8.4.4 任務(wù)實(shí)現(xiàn) 165
任務(wù)8.5 使用LDA模型進(jìn)行主題分析 169
8.5.1 了解LDA主題模型 169
8.5.2 尋找最 優(yōu)主題數(shù) 171
8.5.3 進(jìn)行LDA主題分析 171
8.5.4 評(píng)價(jià)主題分析結(jié)果 172
8.5.5 任務(wù)實(shí)現(xiàn) 173
小結(jié) 176
實(shí)訓(xùn) 176
實(shí)訓(xùn)1 清洗酒店評(píng)論原始數(shù)據(jù) 176
實(shí)訓(xùn)2 對(duì)酒店評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理 176
實(shí)訓(xùn)3 使用LDA模型建模并分析酒店評(píng)論 177
課后習(xí)題 177
第9章 餐飲企業(yè)綜合分析 179
任務(wù)9.1 了解餐飲企業(yè)分析需求 179
9.1.1 分析餐飲企業(yè)現(xiàn)狀與需求 180
9.1.2 了解餐飲企業(yè)數(shù)據(jù)基本狀況 181
9.1.3 熟悉餐飲企業(yè)數(shù)據(jù)分析的步驟與流程 183
任務(wù)9.2 統(tǒng)計(jì)餐飲菜品數(shù)據(jù) 184
9.2.1 統(tǒng)計(jì)每日用餐人數(shù)與銷售額 184
9.2.2 統(tǒng)計(jì)菜品熱銷度 190
9.2.3 統(tǒng)計(jì)菜品的毛利率 191
9.2.4 任務(wù)實(shí)現(xiàn) 192
任務(wù)9.3 使用ARIMA算法預(yù)測(cè)銷售額 194
9.3.1 檢驗(yàn)平穩(wěn)性和純隨機(jī)性 194
9.3.2 構(gòu)建ARIMA模型 196
9.3.3 任務(wù)實(shí)現(xiàn) 198
任務(wù)9.4 使用協(xié)同過(guò)濾算法實(shí)現(xiàn)菜品的智能推薦 201
9.4.1 選取特征 202
9.4.2 使用基于物品的智能推薦算法進(jìn)行推薦 202
9.4.3 了解基于用戶的智能推薦算法 203
9.4.4 分析協(xié)同過(guò)濾結(jié)果 203
9.4.5 任務(wù)實(shí)現(xiàn) 204
任務(wù)9.5 使用Apriori算法實(shí)現(xiàn)菜品的關(guān)聯(lián)分析 207
9.5.1 構(gòu)建Apriori模型 207
9.5.2 分析關(guān)聯(lián)規(guī)則結(jié)果 209
9.5.3 任務(wù)實(shí)現(xiàn) 210
任務(wù)9.6 使用K-Means算法進(jìn)行客戶價(jià)值分析 214
9.6.1 構(gòu)建關(guān)鍵特征 214
9.6.2 構(gòu)建K-Means模型 214
9.6.3 分析K-Means模型結(jié)果 215
9.6.4 任務(wù)實(shí)現(xiàn) 217
任務(wù)9.7 用決策樹算法實(shí)現(xiàn)餐飲客戶流失預(yù)測(cè) 219
9.7.1 了解客戶流失 219
9.7.2 了解決策樹算法 220
9.7.3 構(gòu)建客戶流失特征 221
9.7.4 分析決策樹模型結(jié)果 223
9.7.5 任務(wù)實(shí)現(xiàn) 223
小結(jié) 226
實(shí)訓(xùn) 226
實(shí)訓(xùn)1 使用ARIMA模型預(yù)測(cè)網(wǎng)站訪問(wèn)量 226
實(shí)訓(xùn)2 使用決策樹算法實(shí)現(xiàn)運(yùn)營(yíng)商客戶流失預(yù)測(cè) 227
實(shí)訓(xùn)3 使用協(xié)同過(guò)濾算法實(shí)現(xiàn)網(wǎng)站的智能推薦 227
實(shí)訓(xùn)4 使用Apriori算法實(shí)現(xiàn)網(wǎng)站的關(guān)聯(lián)分析 227
實(shí)訓(xùn)5 使用K-Means算法實(shí)現(xiàn)運(yùn)營(yíng)商客戶價(jià)值分析 228
課后習(xí)題 228