SAS數(shù)據(jù)挖掘與分析項目實戰(zhàn)
定 價:79.8 元
本書講述了在實際運營中核心的數(shù)據(jù)挖掘分析案例,為讀者重點展示了SAS在精準營銷、客戶流失預(yù)警、客戶分群、廣告點擊、信用卡欺詐、信用風險評分等領(lǐng)域中的具體應(yīng)用。 本書分為16章,以數(shù)據(jù)挖掘基礎(chǔ)知識介紹開始,循序漸進地講述了Kaggle數(shù)據(jù)科學社區(qū)調(diào)查數(shù)據(jù)分析、考察汽車耗油量與里程數(shù)的關(guān)系分析、影響汽車銷售的關(guān)鍵因子分析、健身運動中耗氧量回歸分析、旅客量預(yù)測分析、客戶群分類判別分析、銷售公司的客戶分群、員工離職預(yù)測、廣告點擊率預(yù)測、產(chǎn)品精準營銷模型、電信客戶流失預(yù)警、銀行貸款用戶風險分析、信用風險評分卡的開發(fā)以及信用卡反欺詐預(yù)測模型等案例。后一章介紹了與數(shù)據(jù)挖掘項目中的時間成本有較大關(guān)系的SAS數(shù)據(jù)清洗的相關(guān)技術(shù)。 本書案例豐富,實用性較強,特別適合從事數(shù)據(jù)挖掘、統(tǒng)計建模、機器學習、商業(yè)分析、運營分析等工作的人員使用,也可作為數(shù)學、統(tǒng)計學、金融管理、計算機等專業(yè)的學生學習SAS數(shù)據(jù)挖掘應(yīng)用的參考書籍。
本書的特色 案例豐富:本書不空講SAS語法和模型算法,以大量企業(yè)實際案例、清晰簡明的解釋以及盡可能少的專用術(shù)語來介紹SAS的實際應(yīng)用。 內(nèi)容全面:覆蓋企業(yè)中的熱點應(yīng)用案例,比如精準營銷、流失預(yù)警、客戶分群、信用評分、廣告點擊率預(yù)測等。如果讀者是公司的數(shù)據(jù)分析師,則可以直接參考案例進行相關(guān)模型研發(fā)。 較新的軟件版本:以SAS 94軟件版本,向讀者介紹如何使用SAS進行數(shù)據(jù)挖掘項目的開發(fā)工作。 配備數(shù)據(jù)和源代碼:提供所有案例的數(shù)據(jù)文件和SAS源代碼,供讀者操作練習、快速學習。 學習路線圖清晰:每個案例均按照數(shù)據(jù)挖掘項目的一般工作流程逐步展開。
這個技術(shù)有什么前途 隨著大數(shù)據(jù)、人工智能的發(fā)展,無論是阿里巴巴、騰訊、百度還是母嬰店、超市,不同的企業(yè)都在嘗試利用大數(shù)據(jù)、人工智能技術(shù)提升企業(yè)的運營決策效率、降低管理費用,同時擴大業(yè)務(wù)范圍。作為人工智能主要內(nèi)容的數(shù)據(jù)挖掘技術(shù),一直緊跟時代潮流,在企業(yè)的運營決策中發(fā)揮著越來越大的作用。 作為非常常用的商業(yè)數(shù)據(jù)挖掘軟件SAS,也緊跟大數(shù)據(jù)、人工智能的發(fā)展,不斷創(chuàng)新。從1960年至今,經(jīng)過幾十年的完善和發(fā)展,SAS系統(tǒng)在業(yè)內(nèi)被公認為統(tǒng)計分析的標準軟件,在零售、制造、銀行、保險、通信、互聯(lián)網(wǎng)、教育、醫(yī)學、新聞媒體等領(lǐng)域得到廣泛應(yīng)用;诋斍按髷(shù)據(jù)、人工智能的發(fā)展,以及SAS在數(shù)據(jù)挖掘領(lǐng)域的地位及廣泛應(yīng)用,如果你是數(shù)據(jù)分析行業(yè)里的新人,筆者建議要首先學會使用SAS,它很好操作,并且市場占有率非常高。對于數(shù)據(jù)挖掘領(lǐng)域里的專業(yè)人士,如果至少需要掌握兩種工具,首先建議掌握SAS軟件。 筆者的使用體會 SAS功能強大,統(tǒng)計方法齊、全、新。SAS提供了從基本的描述性統(tǒng)計分析到各種試驗設(shè)計的方差分析、相關(guān)回歸分析、因子分析、聚類分析、時間序列分析等多種統(tǒng)計分析,幾乎囊括了所有很前沿的分析方法,其分析技術(shù)先進、可靠,分析方法的實現(xiàn)通過過程調(diào)用完成,許多過程同時提供了多種算法和選項。 使用簡便,操作靈活。SAS以一個通用的數(shù)據(jù)(DATA)產(chǎn)生數(shù)據(jù)集,可以通過不同的過程調(diào)用完成各種數(shù)據(jù)分析挖掘過程。SAS編程語句簡潔、短小,通常只需很少的幾個語句即可完成一些復雜的運算,得到滿意的結(jié)果。 SAS有可在 DATA 和 PROC 使用的大量函數(shù)和自定義函數(shù),功能非常強大,也可以作為被DATA和PROC使用的宏語言。 SAS 的軟件及算法都是經(jīng)過檢驗的,專業(yè)的醫(yī)學生物數(shù)據(jù)統(tǒng)計一般只使用SAS軟件。 SAS非常容易上手,如果你會SQL,則可以立即上手使用SAS。SAS提供了豐富的統(tǒng)計功能,其友好的GUI界面可以讓分析師快速上手,并且得到很好的技術(shù)支持。 在商業(yè)分析領(lǐng)域,SAS是無可爭辯的行業(yè)領(lǐng)導者,就全球而言,SAS仍然是公司和機構(gòu)中使用最多的數(shù)據(jù)分析工具之一,尤其是大型金融公司。 本書的特色 案例豐富:本書不空講SAS語法和模型算法,以大量企業(yè)實際案例、清晰簡明的解釋以及盡可能少的專用術(shù)語來介紹SAS的實際應(yīng)用。 內(nèi)容全面:覆蓋企業(yè)中的熱點應(yīng)用案例,比如精準營銷、流失預(yù)警、客戶分群、信用評分、廣告點擊率預(yù)測等。如果讀者是公司的數(shù)據(jù)分析師,則可以直接參考案例進行相關(guān)模型研發(fā)。 較新的軟件版本:以SAS 94軟件版本,向讀者介紹如何使用SAS進行數(shù)據(jù)挖掘項目的開發(fā)工作。 配備數(shù)據(jù)和源代碼:提供所有案例的數(shù)據(jù)文件和SAS源代碼,供讀者操作練習、快速學習。 學習路線圖清晰:每個案例均按照數(shù)據(jù)挖掘項目的一般工作流程逐步展開。
尚濤,畢業(yè)于上海交通大學數(shù)學系,擁有數(shù)學專業(yè)碩士學位,研究方向為數(shù)據(jù)挖掘及機器學習領(lǐng)域,曾任職于支付平臺、平安科技、易方達基金,現(xiàn)任職于南方基金,專注于信用風險評分、精準營銷、推薦系統(tǒng)、文本挖掘等領(lǐng)域數(shù)據(jù)挖掘項目的研發(fā)工作以及企業(yè)的數(shù)據(jù)化運營落地工作,擁有超過10年數(shù)據(jù)挖掘和優(yōu)化建模的經(jīng)驗,以及多年使用SPSS、SAS、R、Python等建模軟件的經(jīng)驗。在從業(yè)經(jīng)歷中,多次為所在公司的業(yè)務(wù)方提供數(shù)據(jù)挖掘技術(shù)服務(wù),成功實施了眾多深受好評的數(shù)據(jù)挖掘項目,取得了較好的業(yè)務(wù)價值。
第1章數(shù)據(jù)挖掘知識介紹 11數(shù)據(jù)挖掘算法簡介 111分類 112聚類 113關(guān)聯(lián) 114預(yù)測 12分類模型的相關(guān)概念 121數(shù)據(jù)說明 122混淆矩陣 123ROC曲線和AUC面積 124提升(Lift) 125KS曲線 13數(shù)據(jù)挖掘過程中關(guān)鍵問題處理 131數(shù)據(jù)準備 132定義變量及數(shù)據(jù)抽樣 133變量選擇 134缺失值處理 135模型比較 14SAS STAT介紹 第2章Kaggle數(shù)據(jù)科學社區(qū)調(diào)查分析 21描述性統(tǒng)計分析的主要內(nèi)容 211數(shù)據(jù)的頻數(shù)分析 212數(shù)據(jù)的集中趨勢分析 213數(shù)據(jù)的離散程度分析 214數(shù)據(jù)的分布 215繪制統(tǒng)計圖 22SAS描述性分析過程介紹 221PROC FREQ過程 222PROC MEANS過程 223PROC UNIVARIATE過程 23調(diào)查數(shù)據(jù)說明 24數(shù)據(jù)探索 25Kaggle社區(qū)用戶畫像分析 251人員屬性 252工作屬性 253技能屬性 254學習屬性 第3章考察汽車耗油量與里程數(shù)的關(guān)系 31項目背景 32非線性回歸簡介 33非線性回歸過程說明 34廣義線性模型過程 35數(shù)據(jù)文件說明 36數(shù)據(jù)探索 37模型建立 38結(jié)果分析 第4章影響汽車銷售的關(guān)鍵因子分析 41數(shù)據(jù)說明 42因子分析的基本原理 421因子分析模型 422因子旋轉(zhuǎn) 423計算因子得分 43因子分析的步驟和SAS過程 431因子分析的步驟 432FACTOR過程說明 44模型開發(fā)及結(jié)果解釋 45主成分分析和因子分析的區(qū)別 第5章健身運動中耗氧量回歸分析 51線性回歸模型 52REG過程 521過程選項 522MODEL語句選項 523關(guān)鍵字選項 524PLOT語句選項 53數(shù)據(jù)說明 54相關(guān)性分析 55回歸分析 56逐步回歸 561逐步回歸過程 562利用逐步回歸選擇變量 第6章旅客量預(yù)測分析 61項目背景 62數(shù)據(jù)文件說明 63平穩(wěn)隨機過程概述 631自回歸模型 632滑動平均模型 633自回歸滑動平均模型 64ARMA模型的識別 641基于相關(guān)函數(shù)的定階方法 642利用信息準則法定階 65模型參數(shù)的估計 66時間序列的分析步驟 67SAS系統(tǒng)的ARIMA過程 671ARIMA語句選項 672IDENTIFY語句選項 673ESTIMATE語句選項 674FORECAST語句選項 675ARIMA建模過程 68數(shù)據(jù)探索 681平穩(wěn)性檢驗 682序列變換 69自相關(guān)函數(shù)檢驗 610模型參數(shù)估計 611預(yù)測 第7章客戶群分類判別分析 71業(yè)務(wù)背景及數(shù)據(jù)說明 72判別分析的數(shù)學原理 73判別分析的SAS過程 731DISCRIM過程 732CANDISC過程 733STEPDISC過程 74數(shù)據(jù)探索 75客戶群判別模型建立 76模型應(yīng)用 第8章銷售公司的客戶分群分析 81項目背景 811客戶細分的概念 812客戶細分模型 813客戶細分模型的基本流程 814細分方法介紹 82聚類分析的數(shù)學原理 821聚類的數(shù)學原理 822距離和相似距離 823聚類方法 824聚類數(shù)的確定 825聚類分析步驟 83SAS中的聚類過程 831Cluster系統(tǒng)聚類過程 832Fastclus快速聚類過程 833Varclus方差聚類過程 834Tree聚類樹型輸出過程 84數(shù)據(jù)文件說明 85數(shù)據(jù)探索 851變量衍生 852變量標準化 853變量相關(guān)性分析 86模型建立 87客戶畫像分析 88模型應(yīng)用 第9章員工離職預(yù)測 91項目背景 92數(shù)據(jù)說明 93數(shù)據(jù)探索 94數(shù)據(jù)建模 941變量相關(guān)分析 942決策樹建模 95模型評估與應(yīng)用 第10章廣告點擊率預(yù)測 101業(yè)務(wù)背景 1011網(wǎng)絡(luò)廣告發(fā)展情況 1012計算廣告學 102數(shù)據(jù)說明 103數(shù)據(jù)不平衡的處理方式 1031收集更多的數(shù)據(jù) 1032改變模型性能評價指標 1033重新對樣本進行采樣 104模型開發(fā)與評估 1041樣本欠抽樣 1042模型開發(fā) 1043模型評估 105CTR模型的發(fā)展脈絡(luò) 第11章產(chǎn)品精準營銷推薦 111項目背景 1111業(yè)務(wù)背景 1112數(shù)據(jù)說明 1113項目目標 112數(shù)據(jù)探索 1121變量描述性統(tǒng)計分析 1122變量缺失值處理 1123變量衍生處理 113模型建設(shè) 1131欠抽樣 1132數(shù)據(jù)集分割 1133模型開發(fā) 1134模型評估 114模型應(yīng)用 1141產(chǎn)品自動化推薦系統(tǒng) 1142易受到市場環(huán)境等各種因素的影響 1143人群特征漂移需要不斷優(yōu)化模型 第12章通信客戶流失預(yù)警模型 121項目背景 1211客戶流失分析要解決的問題 1212分析客戶流失的類型 1213如何進行客戶流失分析 122數(shù)據(jù)說明 123因變量定義 124樣本抽取 125數(shù)據(jù)探索 126模型開發(fā) 1261變量衍生 1262變量選擇 1263相關(guān)性處理 1264模型結(jié)果 127模型評估 1271開發(fā)樣本上的模型性能 1272驗證樣本上的模型性能 128模型應(yīng)用 第13章銀行貸款用戶風險分析 131案例背景 132因變量定義 133樣本抽取 134數(shù)據(jù)探索 1341為什么要進行數(shù)據(jù)探索 1342數(shù)據(jù)分布情況 135模型建設(shè) 1351變量衍生 1352變量選擇 1353共線性處理 1354模型結(jié)果 136模型性能評估 1361開發(fā)樣本上的模型性能 1362驗證樣本上的模型性能 137模型應(yīng)用 第14章信用風險評分卡開發(fā) 141信用評分模型簡介 142信用卡模型的開發(fā)過程 143案例背景及項目目標確定 1431項目背景說明 1432確定項目目標 144數(shù)據(jù)獲取 145數(shù)據(jù)質(zhì)量檢驗 146項目參數(shù)設(shè)定 1461排除規(guī)則確定 1462表現(xiàn)和觀察窗口 1463確定“壞”的定義 1464滾動率分析 1465客戶分群 147數(shù)據(jù)探索 1471數(shù)據(jù)分布分析 1472缺失值的處理 1473極端值的處理 148模型開發(fā) 1481證據(jù)權(quán)重(WOE) 1482信息值(IV) 1483變量選擇 1484變量分組 1485變量相關(guān)性分析 1486模型迭代開發(fā) 149模型評估 1491混淆矩陣 1492KS統(tǒng)計量 1493ROC曲線 1410評分卡創(chuàng)建 14101評分尺度變換 14102變量分值分配 1411評分卡實施 1412監(jiān)測與報告 1413拒絕推斷 1414運用評分卡需要注意的事項 第15章信用卡反欺詐預(yù)測模型 151信用卡欺詐概述 1511信用卡欺詐的種類 1512智能反欺詐管理 1513其他反欺詐技術(shù) 152案例背景 153數(shù)據(jù)探索 154模型開發(fā) 1541不使用分層抽樣策略 1542使用分層抽樣策略 155總結(jié) 第16章SAS數(shù)據(jù)清洗技術(shù) 161數(shù)據(jù)清洗簡介 1611數(shù)據(jù)清洗 1612數(shù)據(jù)探索 162數(shù)據(jù)導入 1621讀入數(shù)據(jù)到SAS系統(tǒng)的方法 1622指定數(shù)據(jù)文件的位置 1623讀入由空格分隔的原始數(shù)據(jù) 1624讀入列對齊的原始數(shù)據(jù) 1625讀入非標準格式的數(shù)據(jù) 1626讀入一個觀測占據(jù)多行的數(shù)據(jù)文件 1627讀入原數(shù)據(jù)文件的一部分 1628IMPORT過程讀入分隔數(shù)據(jù)文件 163數(shù)據(jù)格式處理 164SAS函數(shù) 1641字符函數(shù) 1642數(shù)值函數(shù) 165缺失值處理 166數(shù)據(jù)抽樣 1661等比例分層抽樣 1662不等比例分層抽樣 1663分層抽樣