本書詳細(xì)介紹了數(shù)據(jù)科學(xué)領(lǐng)域的相關(guān)智能技術(shù),包括數(shù)據(jù)分析、基本學(xué)習(xí)算法、模糊邏輯、人工神經(jīng)網(wǎng)絡(luò)、基因算法和進(jìn)化計(jì)算、使用R語言進(jìn)行大數(shù)據(jù)分析等。本書可以作為高等院校計(jì)算機(jī)專業(yè)本科生和研究生,以及其他專業(yè)研究生的人工智能課程的教材,也可以作為相關(guān)教師和數(shù)據(jù)分析技術(shù)人員的參考書。
信息和通信技術(shù)(ICT)已成為開展業(yè)務(wù)的常用工具。憑借ICT提供的高度適用性和支持,許多困難的計(jì)算任務(wù)都得到了簡化。另一方面,信息和通信技術(shù)也成為創(chuàng)造挑戰(zhàn)的關(guān)鍵因素!如今,如果不使用智能技術(shù),那么在各領(lǐng)域收集的數(shù)據(jù)規(guī)模將遠(yuǎn)遠(yuǎn)超過我們縮減數(shù)據(jù)和分析數(shù)據(jù)的能力。積累的(大)數(shù)據(jù)中隱藏著很多有價值的信息。然而,要獲得這些有價值的信息和洞察力是非常困難的。因此,幫助人類從數(shù)據(jù)中提取知識的新一代計(jì)算理論和工具是必不可少的。畢竟,為什么這些本質(zhì)上聰明、智能的工具和技術(shù)不用來最小化人的參與,以及有效地管理海量數(shù)據(jù)呢?
計(jì)算智能技術(shù),包括神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、進(jìn)化計(jì)算以及其他的機(jī)器學(xué)習(xí)領(lǐng)域,在用于支持業(yè)務(wù)決策的數(shù)據(jù)識別、可視化、分類和分析等方面非常有效。已開發(fā)的計(jì)算智能理論已經(jīng)應(yīng)用于工程、數(shù)據(jù)分析、預(yù)測、醫(yī)療保健等許多領(lǐng)域。本書將這些技巧結(jié)合在一起來解決數(shù)據(jù)科學(xué)中的問題。
最近出現(xiàn)的“數(shù)據(jù)科學(xué)”一詞,特指一個使得海量數(shù)據(jù)變得有意義的新行業(yè)。但是,處理數(shù)據(jù)并使其有意義這一點(diǎn)具有悠久歷史。數(shù)據(jù)科學(xué)是一套用于支持和指導(dǎo)從數(shù)據(jù)中提取信息和洞察力的基本原則。與數(shù)據(jù)科學(xué)最密切相關(guān)的概念很可能是數(shù)據(jù)挖掘——通過包含這些原則,從數(shù)據(jù)中提取知識的技術(shù)。數(shù)據(jù)科學(xué)的核心輸出是數(shù)據(jù)產(chǎn)品。數(shù)據(jù)產(chǎn)品可以是從推薦列表到儀表板的任何產(chǎn)品,也可以是支持實(shí)現(xiàn)更明智決策的任何產(chǎn)品。分析是數(shù)據(jù)科學(xué)的核心。分析側(cè)重根據(jù)統(tǒng)計(jì)模型來理解數(shù)據(jù)。它關(guān)注數(shù)據(jù)的收集、分析和解釋,以及數(shù)據(jù)分析結(jié)果的有效組織、展示和交流。
這本教材旨在滿足希望從事數(shù)據(jù)科學(xué)和計(jì)算智能領(lǐng)域的研究和開發(fā)人員的需求。
全書概覽
自1994年以來,我們在不同地方以不同形式教授了本書中的主題。特別是,本書基于作者過去幾年在不同大學(xué)和不同研究機(jī)構(gòu)所教授的研究生課程,其內(nèi)容涉及各種數(shù)據(jù)科學(xué)的相關(guān)知識。來自參與者和同事的反饋在很大程度上幫助我們改進(jìn)了本書的內(nèi)容。
本書可以作為研究生或高年級本科生的一些課程的教科書或主要參考書,這些課程包括智能控制、計(jì)算科學(xué)、應(yīng)用人工智能以及數(shù)據(jù)庫中的知識發(fā)現(xiàn)等。
本書以智能的方式為讀者設(shè)計(jì)和實(shí)現(xiàn)用于實(shí)際應(yīng)用的數(shù)據(jù)分析方案奠定了堅(jiān)實(shí)的基礎(chǔ)。本書共分為9章。
下面簡要介紹每一章中的內(nèi)容。
數(shù)據(jù)對于任何企業(yè)而言都是重要資產(chǎn)。數(shù)據(jù)可以為客戶行為、市場資訊以及運(yùn)營績效等領(lǐng)域提供有價值的洞察力。數(shù)據(jù)科學(xué)家搭建智能系統(tǒng)來管理、解釋、理解數(shù)據(jù),并從這些數(shù)據(jù)中獲取關(guān)鍵知識。第1章概述了數(shù)據(jù)科學(xué)的這些方面。特別強(qiáng)調(diào)的是,幫助學(xué)生確定數(shù)據(jù)科學(xué)思維在數(shù)據(jù)驅(qū)動型企業(yè)中的重要性。
數(shù)據(jù)科學(xué)項(xiàng)目不同于典型的商業(yè)智能項(xiàng)目。第2章概述了數(shù)據(jù)生命周期、數(shù)據(jù)科學(xué)項(xiàng)目生命周期以及數(shù)據(jù)分析生命周期。本章還著重解釋了標(biāo)準(zhǔn)的數(shù)據(jù)分析過程。
對于數(shù)據(jù)科學(xué)家而言,最常見的任務(wù)是預(yù)測和機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)側(cè)重于數(shù)據(jù)建模,以及與數(shù)據(jù)科學(xué)相關(guān)的方法和學(xué)習(xí)算法。第3章詳細(xì)介紹了數(shù)據(jù)科學(xué)家和分析師所使用的方法和算法。
模糊集合可以用作通用的近似器,這對建模未知的對象至關(guān)重要。如果操作員能夠在特定情景下通過語言描述要采取的行動類型,那么使用數(shù)據(jù)對他的控制行為進(jìn)行建模就非常有用。第4章介紹了模糊邏輯的基本概念及其在數(shù)據(jù)科學(xué)中的實(shí)際應(yīng)用。
第5章介紹了人工神經(jīng)網(wǎng)絡(luò)——一種模擬人腦的計(jì)算智能技術(shù)。人工神經(jīng)網(wǎng)絡(luò)的一個重要特征是其適應(yīng)性,其中“通過實(shí)例學(xué)習(xí)”取代了解決問題時的傳統(tǒng)“編程”。另一個顯著特征是允許快速計(jì)算的內(nèi)在并行性。本章為神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)提供了實(shí)用的入門知識。
進(jìn)化計(jì)算是一種創(chuàng)新的優(yōu)化方法。進(jìn)化計(jì)算的一個領(lǐng)域——遺傳算法——涉及全局優(yōu)化算法的使用。遺傳算法基于自然選擇和遺傳學(xué)機(jī)制。第6章描述了機(jī)器學(xué)習(xí)環(huán)境中的進(jìn)化計(jì)算,特別是生物進(jìn)化和遺傳算法。
當(dāng)問題計(jì)算較困難或者僅僅是計(jì)算復(fù)雜度太高時,元啟發(fā)式被認(rèn)為是用于優(yōu)化的健壯性方法。雖然元啟發(fā)式通常不會生成最優(yōu)解決方案,但它們可以在適當(dāng)?shù)挠?jì)算時間內(nèi)提供合理的解決方案,例如通過使用隨機(jī)機(jī)制。元啟發(fā)式和數(shù)據(jù)分析有著共同的基礎(chǔ),因?yàn)樗鼈兺ㄟ^增量操作,在難解的搜索空間中尋找近似結(jié)果。第7章簡要介紹了元啟發(fā)式方法的基本要素,如自適應(yīng)記憶方法和群體智能。本章還進(jìn)一步討論了分類方法,如案例推理。這種分類方法基于這一思想,即以前已解決問題的積累經(jīng)驗(yàn)可以很好地代表新的情況;诎咐耐评硪延糜谥匾默F(xiàn)實(shí)世界應(yīng)用中。
為了利用好大數(shù)據(jù),就需要不斷地進(jìn)行分析,并利用數(shù)據(jù)中的價值。這需要一個基礎(chǔ)架構(gòu),可以管理和處理大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)——數(shù)據(jù)流和存儲中的數(shù)據(jù)——并且可以保護(hù)數(shù)據(jù)隱私和安全。第8章提供了廣泛的、涵蓋大數(shù)據(jù)的技術(shù)和工具,這些技術(shù)和工具支持高級分析、數(shù)據(jù)隱私以及倫理和安全問題。
第9章給出了R編程語言的簡單介紹。R語言既優(yōu)雅又靈活,并且具有用于數(shù)據(jù)處理的大量語法。R還包含強(qiáng)大的圖形功能。
最后,附錄提供了一系列在實(shí)踐中處理數(shù)據(jù)科學(xué)的流行工具。在整本書中,真實(shí)世界的案例研究和練習(xí)都是為了強(qiáng)調(diào)該材料所涵蓋的某些方面,并激發(fā)思想。
讀者對象
本
譯者序
前言
第1章 緒論 1
1.1 引言 1
1.2 數(shù)據(jù)科學(xué)的歷史 2
1.3 現(xiàn)代商業(yè)中數(shù)據(jù)科學(xué)的重要性 3
1.4 數(shù)據(jù)科學(xué)家 5
1.5 三維數(shù)據(jù)科學(xué)活動 6
1.5.1 管理數(shù)據(jù)流 7
1.5.2 處理數(shù)據(jù)管理 8
1.5.3 數(shù)據(jù)分析 11
1.6 數(shù)據(jù)科學(xué)與其他領(lǐng)域交叉 11
1.7 數(shù)據(jù)分析思維 13
1.8 應(yīng)用領(lǐng)域 13
1.8.1 資源的可持續(xù)發(fā)展 13
1.8.2 利用社交平臺進(jìn)行各種活動 14
1.8.3 智能Web應(yīng)用 14
1.8.4 Google自動統(tǒng)計(jì)員項(xiàng)目 15
1.9 應(yīng)用計(jì)算智能管理數(shù)據(jù)科學(xué)活動 15
1.10 商業(yè)中的數(shù)據(jù)科學(xué)場景 17
1.11 有助于數(shù)據(jù)科學(xué)的工具和技術(shù) 17
1.11.1 數(shù)據(jù)清洗工具 18
1.11.2 數(shù)據(jù)管理和建模工具 19
1.11.3 數(shù)據(jù)可視化工具 20
1.12 練習(xí) 21
參考文獻(xiàn) 22
第2章 數(shù)據(jù)分析 23
2.1 引言 23
2.2 跨行業(yè)標(biāo)準(zhǔn)過程 24
2.3 數(shù)據(jù)分析生命周期 25
2.4 數(shù)據(jù)科學(xué)項(xiàng)目生命周期 27
2.5 數(shù)據(jù)分析的復(fù)雜性 28
2.6 從數(shù)據(jù)到洞察力 30
2.7 構(gòu)建分析能力:銀行案例 31
2.8 數(shù)據(jù)質(zhì)量 32
2.9 數(shù)據(jù)準(zhǔn)備過程 33
2.10 溝通分析結(jié)果 34
2.10.1 溝通分析結(jié)果的策略 34
2.10.2 數(shù)據(jù)可視化 35
2.10.3 可視化技術(shù) 36
2.11 練習(xí) 37
參考文獻(xiàn) 37
第3章 基本學(xué)習(xí)算法 38
3.1 從數(shù)據(jù)中學(xué)習(xí) 38
3.2 監(jiān)督學(xué)習(xí) 40
3.2.1 線性回歸 40
3.2.2 決策樹 41
3.2.3 隨機(jī)森林 46
3.2.4 k-近鄰算法 47
3.2.5 邏輯回歸 49
3.2.6 模型組合器 50
3.2.7 樸素貝葉斯 53
3.2.8 貝葉斯信念網(wǎng)絡(luò) 54
3.2.9 支持向量機(jī) 56
3.3 無監(jiān)督學(xué)習(xí) 57
3.3.1 Apriori 算法 58
3.3.2 k-means算法 60
3.3.3 用于數(shù)據(jù)壓縮的降維 62
3.4 強(qiáng)化學(xué)習(xí) 62
3.5 案例研究:使用機(jī)器學(xué)習(xí)進(jìn)行市場營銷活動 65
3.6 練習(xí) 66
參考文獻(xiàn) 67
第4章 模糊邏輯 68
4.1 引言 68
4.2 模糊隸屬函數(shù) 70
4.2.1 三角形隸屬函數(shù) 71
4.2.2 梯形隸屬函數(shù) 71
4.2.3 高斯隸屬函數(shù) 71
4.2.4 sigmoid隸屬函數(shù) 72
4.3 隸屬值分配方法 72
4.4 模糊化與解模糊化方法 73
4.5 模糊集合操作 73
4.5.1 模糊集合的并集 74
4.5.2 模糊集合的交集 74
4.5.3 模糊集合的補(bǔ)集 74
4.6 模糊集合性質(zhì) 76
4.7 模糊關(guān)系 76
4.8 模糊命題 79
4.8.1 模糊連接詞 79
4.8.2 析取 79
4.8.3 合取 80
4.8.4 否定 80
4.8.5 蘊(yùn)含 80
4.9 模糊推理 80
4.10 基于模糊規(guī)則的系統(tǒng) 81
4.11 數(shù)據(jù)科學(xué)的模糊邏輯 82
4.11.1 應(yīng)用1:Web內(nèi)容挖掘 83
4.11.2 應(yīng)用2:Web結(jié)構(gòu)挖掘 84
4.11.3 應(yīng)用3:Web使用挖掘 85
4.11.4 應(yīng)用4:環(huán)境和社交數(shù)據(jù)處理 86
4.12 用模糊邏輯進(jìn)行數(shù)據(jù)科學(xué)活動的工具和技術(shù) 87
4.13 練習(xí) 88
參考文獻(xiàn) 88
第5章 人工神經(jīng)網(wǎng)絡(luò) 89
5.1 引言 89
5.2 符號學(xué)習(xí)方法 90
5.3 人工神經(jīng)網(wǎng)絡(luò)及其特點(diǎn) 91
5.4 ANN模型 93
5.4.1 Hopfield模型 93
5.4.2 感知器模型 94
5.4.3 多層感知器 96
5.4.4 多層感知器的深度學(xué)習(xí) 98
5.4.5 其他ANN模型 100
5.4.6 線性回歸與神經(jīng)網(wǎng)絡(luò) 101
5.5 ANN工具和程序 102
5.6 社交網(wǎng)絡(luò)平臺上的情感挖掘 103
5.6.1 情感挖掘相關(guān)工作 103
5.6.2 廣泛架構(gòu) 104
5.6.3 神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 104
5.7 應(yīng)用與挑戰(zhàn) 106
5.8 關(guān)注點(diǎn) 107
5.9 練習(xí) 108
參考文獻(xiàn) 109
第6章 遺傳算法與進(jìn)化計(jì)算 111
6.1 引言 111
6.2 遺傳算法 112
6.3 遺傳算法的基本原理 114
6.3.1 個體編碼 114
6.3.2 變異 114
6.3.3 交叉 115
6.3.4 適應(yīng)度函數(shù) 116
6.3.5 選擇 116
6.3.6 其他編碼策略 117
6.4 利用遺傳算法進(jìn)行函數(shù)優(yōu)化的實(shí)例 118
6.5 模式與模式定理 120
6.5.1 實(shí)例、定義位和模式順序 120
6.5.2 模式的重要性 121
6.6 基于特殊應(yīng)用的遺傳算子 121
6.7 進(jìn)化編程 123
6.8 遺傳算法在醫(yī)療保健中的應(yīng)用 124
6.8.1 醫(yī)療保健案例 124
6.8.2 基于遺傳算法的病人調(diào)度系統(tǒng) 125
6.8.3 編碼候選者 127
6.8.4 種群上的操作 127
6.8.5 其他應(yīng)用 128
6.9 練習(xí) 130
參考文獻(xiàn) 131
第7章 其他元啟發(fā)式和分類方法 132
7.1 引言 132
7.2 自適應(yīng)記憶過程 132
7.2.1 禁忌搜索 133
7.2.2 分散搜索 134
7.2.3 路徑重連 136
7.3 群體智能 136
7.3.1 蟻群優(yōu)化 137
7.3.2 人工蜂群算法 138
7.3.3 河流形成動力學(xué) 139
7.3.4 粒子群優(yōu)化 139
7.3.5 隨機(jī)擴(kuò)散搜索 141
7.3.6 群體智能與大數(shù)據(jù) 142
7.4 案例推理 142
7.4.1 案例推理中的學(xué)習(xí) 144
7.4.2 案例推理與數(shù)據(jù)科學(xué) 145
7.4.3 處理復(fù)雜的領(lǐng)域 146
7.5 粗糙集 146
7.6 練習(xí) 148
參考文獻(xiàn) 148
第8章 分析和大數(shù)據(jù) 149
8.1 引言 149
8.2 傳統(tǒng)分析與大數(shù)據(jù)分析 150
8.3 大規(guī)模并行處理 152
8.3.1 MapReduce 152
8.3.2 與RDBMS的比較 154
8.3.3 共享存儲的并行編程 155
8.3.4 Apache Hadoop 生態(tài)系統(tǒng) 155
8.3.5 Hadoop分布式文件系統(tǒng) 157
8.4 NoSQL