本書介紹數(shù)據(jù)挖掘、統(tǒng)計學習和模式識別中與大數(shù)據(jù)分析相關(guān)的理論、方法及工具。理論學習的目標是使學生掌握復雜數(shù)據(jù)的分析與建模;方法學習的目標是使學生能夠按照實證研究的規(guī)范和數(shù)據(jù)挖掘的步驟進行大數(shù)據(jù)研發(fā),工具學習的目標是使學生熟練掌握一種數(shù)據(jù)分析的語言。本書內(nèi)容由10章構(gòu)成:大數(shù)據(jù)分析概述,數(shù)據(jù)挖掘流程,有指導的學習,無指導的學習,貝葉斯分類和因果學習,高維回歸及變量選擇,圖模型,客戶關(guān)系管理、社會網(wǎng)絡(luò)分析、自然語言模型和文本挖掘。
本書可用做統(tǒng)計學、管理學、計算機科學等專業(yè)進行數(shù)據(jù)挖掘、機器學習、人工智能等相關(guān)課程的本科高年級、研究生教材或教學參考書。
信息技術(shù)推動了大眾對數(shù)據(jù)的消費,大眾對數(shù)據(jù)的消費熱點經(jīng)歷了一個明晰的軌跡, 20 世紀 80年代是數(shù)學熱,數(shù)字產(chǎn)生于數(shù)學模型,但數(shù)學模型對帶有觀測誤差數(shù)據(jù)的解讀能力有限,20世紀 90年代是信息熱,信息為數(shù)字披上了外衣,然而技術(shù)的計算代價、適應能力和容錯能力等還缺乏一個統(tǒng)一的分析標準。結(jié)果從 20 世紀 90年代開始,統(tǒng)計開始成為大眾消費數(shù)據(jù)的熱點,這一消費的轉(zhuǎn)變也將一度默默無聞、與世無爭的統(tǒng)計學家從象牙塔帶到真實世界,開始參與到從數(shù)據(jù)特點出發(fā)構(gòu)建面向不同問題的統(tǒng)計模型的實踐中來。在當今這個網(wǎng)絡(luò)密布、數(shù)據(jù)激增的時代,統(tǒng)計建模為大數(shù)據(jù)分析提供了一套可擴展、可深化,并能高質(zhì)高效地揭示有價值信息的方法,使透過微觀數(shù)據(jù)視角洞察在“無尺度網(wǎng)絡(luò)”中游走的人類行為成為可能。大數(shù)據(jù)分析方法已經(jīng)在信用識別、垃圾過濾、過度開發(fā)、誘惑欺詐、軌跡尋蹤等應用研究中顯露手腳,其潛在的能量與應用前景無疑有著更為廣闊的空間。
與傳統(tǒng)的統(tǒng)計分析相比,大數(shù)據(jù)有著來源復雜、體量巨大、價值潛伏等特點,這使得大數(shù)據(jù)分析必然要依托計算機技術(shù)予以實現(xiàn)。這也逐漸演變出大數(shù)據(jù)分析的兩個研究方向:第一個方向側(cè)重于數(shù)據(jù)的處理與表示,主要強調(diào)采集、存取、加工和可視化數(shù)據(jù)的方法;第二個方向則研究數(shù)據(jù)的統(tǒng)計規(guī)律,側(cè)重于對微觀數(shù)據(jù)本質(zhì)特征的提取和模式發(fā)現(xiàn)。經(jīng)過多年的實踐探索,業(yè)界已經(jīng)越來越清晰的意識到只有在兩個方向上的協(xié)同、均衡推進,才能保障大數(shù)據(jù)應用的穩(wěn)健成長和可持續(xù)發(fā)展。因此,大數(shù)據(jù)分析的發(fā)展重心也逐漸由數(shù)據(jù)處理的技術(shù)向數(shù)據(jù)分析的科學傾斜,后者正是本書的焦點與重點。
相應的,我們所指的大數(shù)據(jù)分析方法主要取材于統(tǒng)計學習( Statistical Learning)、數(shù)據(jù)挖掘( Data Mining)和模式識別( Pattern Recognization)等領(lǐng)域,這些內(nèi)容安排在第 3章、第 4章、第 5章、第 6章和第 7章。第 2章著重介紹數(shù)據(jù)挖掘流程與數(shù)據(jù)處理技術(shù)。大數(shù)據(jù)分析還是一門與應用結(jié)合很強的課程,我們精心挑選了三類典型的應用模型,內(nèi)容安排在第 8章、第 9章和第 10章。本書集方法與應用于一冊,希望讀者通過方法的學習掌握復雜數(shù)據(jù)的分析與建模;通過應用的學習能按照實證研究的規(guī)范和數(shù)據(jù)挖掘的流程開展大數(shù)據(jù)的研發(fā)。除此之外,大數(shù)據(jù)分析還有很強的實踐性,為體現(xiàn)這一特點,我們強調(diào)了工具的作用。通過工具的學習希望讀者能夠熟練掌握一門數(shù)據(jù)分析語言。本書大部分方法將給出 R軟件的示范程序, R軟件是免費、開源、專業(yè)、前沿的統(tǒng)計分析軟件,分析研究數(shù)據(jù)的功能強大,是實踐和領(lǐng)會大數(shù)據(jù)建模的有效途徑。另外,書中也使用了少量的 JMP和 Statistica等工具的分析結(jié)果。
本書既可用做培養(yǎng)應用統(tǒng)計專業(yè)碩士的教材,也適用于管理學、信息學、統(tǒng)計學等專業(yè)進行數(shù)據(jù)挖掘、機器學習、人工智能等相關(guān)領(lǐng)域的教學與研究。研究生或本科高年級的數(shù)據(jù)挖掘課程可通過基本原理的學習,了解不同的模型和算法的設(shè)計特點,并通過每章后面所列參考文獻進行延伸閱讀。
本書通過案例講解算法,以提高讀者實際解決問題的能力。書中的案例也可用做提高學生統(tǒng)計咨詢能力的課堂訓練。在習題練習中的一些題目可作為課堂案例,安排學生分組討論,并鼓勵學生演示分析思路和分享分析收獲。使學生有機會診斷問題,并學會選用適當?shù)姆椒ê图夹g(shù)分析數(shù)據(jù)。通過案例教學的方式將對學生領(lǐng)會大數(shù)據(jù)分析方法和應用大有助益。
如上所述,本書內(nèi)容由 10章構(gòu)成:大數(shù)據(jù)分析概述,數(shù)據(jù)挖掘流程,有指導的學習,無指導的學習,貝葉斯分類和因果學習,高維回歸及變量選擇,圖模型,客戶關(guān)系管理,社會網(wǎng)絡(luò)分析,自然語言模型和文本挖掘。教學內(nèi)容建議一學期 54學時完成,其中至少應該安排 10學時用于大數(shù)據(jù)分析項目的上機實驗和討論。
作者過去 6年中一直在給高年級本科生和研究生講授數(shù)據(jù)挖掘與機器學習課程,本書是作者結(jié)合多年授課的講義與課題研究成果基礎(chǔ)上匯編而成。全書由王星策劃、統(tǒng)稿和校閱,其中第 1章至第 5章由王星主筆。賀詩源同學主要參與了第 2章、第 6章和第 7章的部分編寫工作,陳文同學主要參與了第 6章和第 8章的部分編寫工作,以上兩位同學還在軟件實現(xiàn)和例題整理部分做出貢獻;鄭軼、李榮明、龔君泰、馬璇、李沐雨對第 8章至第 10章做出貢獻;彭非老師、張波、邱逸軒、顏婭婷、王曉航、王杰彪、陳之進和張望等同學參與了部分實驗的討論;特別感謝 SAS 軟件 JMP事業(yè)部曹建博士、周等在軟件和相關(guān)資料方面給予的大力支持和技術(shù)解惑,他們還提供了可供學生免費試用的版本和網(wǎng)址(具體方法列在光盤中);清華大學出版社責任編輯劉穎和他的同事們盡職盡責的努力,在此一并致以衷心的謝忱。寫作本書是一個愉快的過程,在這個新的科研方向和應用領(lǐng)域上,這支由年輕人組成的團隊激情澎湃、勇于探索,他們鉆研探究的精神風貌為我留下諸多美好回憶,也凝聚了開拓未來前進的不竭動力。大數(shù)據(jù)分析方法和應用涉獵很廣,很難一本書面面俱到,書中尚存不詳不妥之處,敬請讀者指正。
王 星
中國人民大學應用統(tǒng)計科學研究中心 2013年 7月
第1章 大數(shù)據(jù)分析概述
1.1 大數(shù)據(jù)概述
1.1.1 什么是大數(shù)據(jù)
1.1.2 數(shù)據(jù)、信息與認知
1.1.3 數(shù)據(jù)管理與數(shù)據(jù)庫
1.1.4 數(shù)據(jù)倉庫
1.1.5 數(shù)據(jù)挖掘的內(nèi)涵和基本特征
1.2 數(shù)據(jù)挖掘的產(chǎn)生與功能
1.2.1 數(shù)據(jù)挖掘的歷史
1.2.2 數(shù)據(jù)挖掘的功能
1.3 數(shù)據(jù)挖掘與相關(guān)領(lǐng)域之間的關(guān)系
1.3.1 數(shù)據(jù)挖掘與機器學習
1.3.2 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
1.3.3 數(shù)據(jù)挖掘與統(tǒng)計學
1.3.4 數(shù)據(jù)挖掘與智能決策
第1章 大數(shù)據(jù)分析概述
1.1 大數(shù)據(jù)概述
1.1.1 什么是大數(shù)據(jù)
1.1.2 數(shù)據(jù)、信息與認知
1.1.3 數(shù)據(jù)管理與數(shù)據(jù)庫
1.1.4 數(shù)據(jù)倉庫
1.1.5 數(shù)據(jù)挖掘的內(nèi)涵和基本特征
1.2 數(shù)據(jù)挖掘的產(chǎn)生與功能
1.2.1 數(shù)據(jù)挖掘的歷史
1.2.2 數(shù)據(jù)挖掘的功能
1.3 數(shù)據(jù)挖掘與相關(guān)領(lǐng)域之間的關(guān)系
1.3.1 數(shù)據(jù)挖掘與機器學習
1.3.2 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
1.3.3 數(shù)據(jù)挖掘與統(tǒng)計學
1.3.4 數(shù)據(jù)挖掘與智能決策
1.3.5 數(shù)據(jù)挖掘與云計算
1.4 大數(shù)據(jù)研究方法
1.5 討論題目
1.6 推薦閱讀
第2章 數(shù)據(jù)挖掘流程
2.1 數(shù)據(jù)挖掘流程概述
2.1.1 問題識別
2.1.2 數(shù)據(jù)理解
2.1.3 數(shù)據(jù)準備
2.1.4 建立模型
2.1.5 模型評價
2.1.6 部署應用
2.2 離群點發(fā)現(xiàn)
2.2.1 基于統(tǒng)計的離群點檢測
2.2.2 基于距離的離群點檢測
2.2.3 局部離群點算法
2.3 不平衡數(shù)據(jù)級聯(lián)算法
2.4 討論題目
2.5 推薦閱讀
第3章 有指導的學習
3.1 有指導的學習概述
3.2 k-近鄰
……
第4章 無指導的學習
第5章 貝葉斯分類和因果學習
第6章 高維回歸及變量選擇
第7章 圖模型
第8章 客戶關(guān)系管理
第9章 社會網(wǎng)絡(luò)分析
第10章 自然語言模型和文本挖掘