數(shù)據(jù)管理十講 袁野 崔斌 李戰(zhàn)懷 等
定 價:89 元
- 作者:袁野 崔斌 李戰(zhàn)懷 等
- 出版時間:2024/3/1
- ISBN:9787111733348
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:純質(zhì)紙
- 版次:
- 開本:16開
隨著社交網(wǎng)絡等新型應用的興起和云計算等新技術的快速發(fā)展,人類獲取數(shù)據(jù)的規(guī)模正以前所未有的速度增長,數(shù)據(jù)中包含了大量有價值的信息,能夠有效助力社會、經(jīng)濟、科技的發(fā)展,因此數(shù)據(jù)管理與分析方面的研究工作倍受關注。本書針對該領域的研究熱點和前沿技術進行了深入淺出的介紹,包括圖數(shù)據(jù)、云數(shù)據(jù)庫系統(tǒng)、時空數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)庫智能化等,幫助讀者構建宏觀視野,把握領域前沿。
本書適合數(shù)據(jù)管理與分析等相關領域的科研人員、年輕教師、研究生,以及從事相關工作的人員閱讀。
中國工程院院士鄭緯民作序
數(shù)據(jù)庫領域?qū)<覍W者攜手打造,系統(tǒng)構建知識體系
綜述當下領域前沿研究方向、理論與技術
以宏觀視野把握領域前沿,獲取領域底層邏輯
隨著社交網(wǎng)絡等新型應用的興起和云計算等新技術的快速發(fā)展,人類所獲取的數(shù)據(jù)規(guī)模正以前所未有的速度增長,與大數(shù)據(jù)相關的技術變革成為當今世界的熱點話題。大數(shù)據(jù)在信息科學、物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通信等行業(yè)普遍存在,引起人們的極大關注。對數(shù)據(jù)進行管理與分析,可以有效提煉人們感興趣的信息,幫助人們進行決策,為后續(xù)研究提供堅實的數(shù)據(jù)支撐。
隨著新興領域的發(fā)展,大數(shù)據(jù)具有種類繁多的特性。為了反映數(shù)據(jù)之間的關聯(lián)關系,圖數(shù)據(jù)的管理與分析應運而生,F(xiàn)實世界中的許多應用場景都需要用圖結構表示,例如,傳統(tǒng)應用中的最優(yōu)運輸路線確定、疾病暴發(fā)路徑預測、科技文獻引用關系分析、生物信息網(wǎng)絡分析等,新興應用中的社交網(wǎng)絡分析、知識圖譜、數(shù)據(jù)萬維網(wǎng)、人腦網(wǎng)絡等。隨著數(shù)據(jù)規(guī)模的不斷擴大,傳統(tǒng)的數(shù)據(jù)庫已經(jīng)不能滿足人們對數(shù)據(jù)存儲和管理的需求,云數(shù)據(jù)庫系統(tǒng)隨之誕生,它融合了云基礎服務的彈性和數(shù)據(jù)庫系統(tǒng)的高可用、高性能的數(shù)據(jù)處理能力,可以適應業(yè)務規(guī)模波動的場景,同時具有高可用、強容災、自動化運維、智能優(yōu)化的特性,成為數(shù)據(jù)庫市場的主導力量。隨著大數(shù)據(jù)時代的發(fā)展,越來越多的數(shù)據(jù)應用場景所涉及的數(shù)據(jù)模態(tài)變得更加多樣化,而傳統(tǒng)的單模態(tài)數(shù)據(jù)不能滿足人們的需求。為應對多模態(tài)數(shù)據(jù)應用場景,多模態(tài)數(shù)據(jù)管理領域飛速發(fā)展,為數(shù)據(jù)存儲、建模以及查詢帶來了全新的挑戰(zhàn)。隨著GPS定位技術與移動互聯(lián)網(wǎng)的快速發(fā)展,時空數(shù)據(jù)呈現(xiàn)爆發(fā)式增長。時空數(shù)據(jù)在形態(tài)上具有海量、多維、動態(tài)等特性,可以滿足城市計算、交通運輸、行為研究等領域中不斷涌現(xiàn)的用戶需求,因此受到了廣泛的關注。在現(xiàn)實生活中,數(shù)據(jù)并不是一成不變的,而是不間斷到達和被處理的連續(xù)數(shù)據(jù)流。這種連續(xù)的數(shù)據(jù)流是自然產(chǎn)生的。因此,如何對流數(shù)據(jù)進行管理與分析,根據(jù)實時的數(shù)據(jù)流做出決策和推斷,對于許多任務有著不可替代的作用。隨著比特幣進入人們的視野,區(qū)塊鏈作為比特幣的底層技術,代表一種革新性的理念和技術范式,旨在利用數(shù)據(jù)和技術來建立信任機制與體系,進而建立新的信用體系,從而為數(shù)字經(jīng)濟和數(shù)字化轉(zhuǎn)型奠定強大基礎。
數(shù)據(jù)類型的多樣性為數(shù)據(jù)的管理與分析帶來了巨大的挑戰(zhàn),也為數(shù)據(jù)管理領域的相關研究帶來了巨大的機遇。然而,當人們獲取和利用的數(shù)據(jù)量飛速增長時,由于容錯標準不完善、數(shù)據(jù)存儲格式不一致、信息來源可靠性低、數(shù)據(jù)更新周期過長等,數(shù)據(jù)的錯誤率和混亂程度會大幅提升,使得數(shù)據(jù)工程中所用數(shù)據(jù)的質(zhì)量不夠優(yōu)質(zhì),這很可能會給諸多領域帶來嚴重的負面影響。因此,如何制定相關規(guī)則,對生命周期的每個階段(計劃、獲取、存儲、共享、維護、應用、消亡)里可能發(fā)生的各類數(shù)據(jù)質(zhì)量問題進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織的管理水平使數(shù)據(jù)質(zhì)量獲得進一步提高,成為數(shù)據(jù)質(zhì)量管理的研究目標。而隨著數(shù)據(jù)管理相關研究的不斷深入,新的問題也隨之產(chǎn)生。數(shù)據(jù)收集是數(shù)據(jù)驅(qū)動任務中重要的一步,隨著隱私安全問題逐漸受到關注,各國的法律法規(guī)加強了對數(shù)據(jù)收集的限制,使得隱私計算成為焦點,如何實現(xiàn)數(shù)據(jù)隱私安全成為數(shù)據(jù)庫領域關注的研究問題。數(shù)據(jù)庫在基礎硬件和上層軟件之間起到了“承上啟下”的作用,向下發(fā)揮硬件算力,向上支撐上層應用。底層硬件技術決定了數(shù)據(jù)存取、并發(fā)處理等的物理極限性能,以NVM、高性能處理器和硬件加速器、RDMA高性能網(wǎng)絡為代表的新硬件技術驅(qū)動的數(shù)據(jù)管理,可以改變傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)的底層載體支撐,數(shù)據(jù)管理系統(tǒng)將向混合存儲環(huán)境、異構計算架構和高性能互聯(lián)網(wǎng)絡逐步演進。而對于上層軟件系統(tǒng),在大數(shù)據(jù)和云計算快速發(fā)展的背景下,數(shù)據(jù)庫服務的數(shù)量劇增,對數(shù)據(jù)庫查詢優(yōu)化、索引推薦、故障診斷、參數(shù)調(diào)優(yōu)等提出了更高的要求。傳統(tǒng)的依賴于啟發(fā)式算法或者人工干預的數(shù)據(jù)庫系統(tǒng)已經(jīng)難以滿足其需求。因此,結合機器學習技術實現(xiàn)包括數(shù)據(jù)庫的自優(yōu)化、自管理、自監(jiān)控、自診斷、自恢復等在內(nèi)的多維度的高度自治功能的數(shù)據(jù)庫系統(tǒng)智能化的研究受到了廣泛關注。
綜上所述,數(shù)據(jù)管理與分析技術的研究和開發(fā)不僅具有重要的理論研究意義,而且具有廣泛的實際應用價值。因此,本書對上述數(shù)據(jù)管理領域的研究熱點和前沿技術進行了深入淺出的介紹,希望本書能夠為數(shù)據(jù)管理與分析專業(yè)的研究生開展研究工作提供良好的參考。
袁野
北京理工大學計算機學院教授,國家杰青和優(yōu)青基金獲得者。長期從事大數(shù)據(jù)管理與分析研究,發(fā)表CCF A類論文100余篇。主持國家自然科學基金重點項目、科技部重點研發(fā)項目。獲中國電子學會自然科學一等獎,和遼寧省科技進步一等獎。擔任中國計算機學會數(shù)據(jù)庫專業(yè)委員會副主任。香港科技大學、香港中文大學、英國愛丁堡大學訪問學者。
崔斌
北京大學計算機學院教授,數(shù)據(jù)科學與工程研究所所長。長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析研究,在國際頂級期刊、會議發(fā)表論文200余篇。擔任中國計算機學會數(shù)據(jù)庫專業(yè)委員會副主任,DSE期刊主編,VLDB 2024大會主席。獲得“微軟青年教授獎”、“CCF 青年科學家獎”、自然科學二等獎,2023年當選IEEE Fellow。
李戰(zhàn)懷
西北工業(yè)大學計算機學院教授,工業(yè)和信息化部大數(shù)據(jù)存儲與管理重點實驗室主任,中國計算機學會數(shù)據(jù)庫專業(yè)委員會主任。主要從事大數(shù)據(jù)管理技術、海量信息存儲系統(tǒng)等研究。主持國家973課題,科技部重點研發(fā)計劃課題,國家自然科學基金重點項目、重大國際合作項目,國家863計劃重大項目課題等。獲省部級一等獎、二等獎各兩項。
叢書序
“十講”序
前言
第1講 圖數(shù)據(jù)管理本講概覽/ 2
1.1 圖數(shù)據(jù)庫的數(shù)據(jù)模型和查詢語言/ 2
1.1.1 數(shù)據(jù)模型/ 2
1.1.2 查詢語言/ 5
1.2 圖數(shù)據(jù)庫的系統(tǒng)架構/ 8
1.2.1 Neo4j/ 8
1.2.2 Jena/ 10
1.2.3 gStore/ 12
1.3 圖數(shù)據(jù)庫中的查詢處理/ 15
1.3.1 基于探索的子圖匹配算法/ 16
1.3.2 基于連接的子圖匹配算法/ 19
1.3.3 分布式子圖匹配算法/ 20
1.4 本講小結/ 22
參考文獻/ 22
第2講 云數(shù)據(jù)管理本講概覽/ 28
2.1 云數(shù)據(jù)庫概述/ 28
2.1.1 云數(shù)據(jù)庫的定義/ 29
2.1.2 云數(shù)據(jù)庫的優(yōu)勢/ 29
2.2 云服務簡介/ 30
2.2.1 云服務的背景/ 30
2.2.2 云服務的特性/ 32
2.3 云托管數(shù)據(jù)庫/ 33
2.3.1 傳統(tǒng)數(shù)據(jù)庫的制約/ 34
2.3.2 云托管數(shù)據(jù)庫的起源/ 34
2.3.3 云托管數(shù)據(jù)庫的利弊/ 35
2.4 云原生數(shù)據(jù)庫/ 36
2.4.1 云原生數(shù)據(jù)庫系統(tǒng)架構/ 37
2.4.2 OLTP云數(shù)據(jù)庫架構/ 37
2.4.3 OLAP云數(shù)據(jù)庫架構/ 42
2.4.4 云原生數(shù)據(jù)庫系統(tǒng)關鍵技術/ 45
2.5 本講小結/ 56
參考文獻/ 56
第3講 多模態(tài)數(shù)據(jù)管理本講概覽/ 60
3.1 問題背景/ 60
3.2 數(shù)據(jù)存儲/ 61
3.2.1 分散存儲/ 62
3.2.2 統(tǒng)一存儲/ 64
3.3 數(shù)據(jù)建模/ 65
3.3.1 統(tǒng)一建模/ 67
3.3.2 混合建模/ 69
3.4 數(shù)據(jù)查詢/ 70
3.4.1 查詢執(zhí)行/ 71
3.4.2 查詢優(yōu)化/ 72
3.5 多模態(tài)數(shù)據(jù)管理系統(tǒng)/ 74
3.6 本講小結/ 76
參考文獻/ 76
第4講 時空數(shù)據(jù)管理本講概覽/ 78
4.1 時空數(shù)據(jù)管理概述/ 78
4.1.1 空間數(shù)據(jù)管理的基本概念/ 78
4.1.2 軌跡數(shù)據(jù)管理的基本概念/ 78
4.2 空間數(shù)據(jù)管理/ 79
4.2.1 空間數(shù)據(jù)索引/ 79
4.2.2 空間區(qū)域查詢/ 86
4.2.3 空間數(shù)據(jù)k最近鄰查詢/ 86
4.2.4 空間數(shù)據(jù)Skyline查詢/ 91
4.3 軌跡數(shù)據(jù)管理/ 96
4.3.1 地圖匹配/ 96
4.3.2 軌跡數(shù)據(jù)索引/ 100
4.3.3 軌跡數(shù)據(jù)相似性查詢/ 104
4.3.4 軌跡數(shù)據(jù)聚類/ 107
4.4 本講小結/ 110
參考文獻/ 111
第5講 流數(shù)據(jù)管理本講概覽/ 124
5.1 流數(shù)據(jù)管理的基本概念/ 124
5.1.1 流數(shù)據(jù)管理/ 124
5.1.2 流數(shù)據(jù)管理的作用/ 126
5.2 基礎流算法/ 126
5.2.1 常見數(shù)據(jù)流模型/ 126
5.2.2 元素個數(shù)估計/ 129
5.2.3 top k元素估計與直方圖/ 131
5.2.4 數(shù)據(jù)流上不同元素個數(shù)估計/ 133
5.3 數(shù)據(jù)挖掘與流算法/ 137
5.3.1 數(shù)據(jù)流上的頻繁項估計/ 138
5.3.2 數(shù)據(jù)流上的聚類/ 139
5.4 進階流算法/ 142
5.4.1 Count Sketch/ 142
5.4.2 Count-Min Sketch/ 144
5.5 流數(shù)據(jù)管理系統(tǒng)/ 145
5.5.1 常見的流數(shù)據(jù)管理系統(tǒng)/ 146
5.5.2 流數(shù)據(jù)管理系統(tǒng)的比較/ 152
5.5.3 批、流數(shù)據(jù)管理系統(tǒng)對比/ 155
5.6 流數(shù)據(jù)的應用與未來/ 160
5.6.1 流數(shù)據(jù)的應用/ 160
5.6.2 流數(shù)據(jù)管理的未來展望/ 162
5.7 本講小結/ 162
參考文獻/ 163
第6講 區(qū)塊鏈數(shù)據(jù)管理本講概覽/ 168
6.1 區(qū)塊鏈概述/ 168
6.1.1 區(qū)塊鏈:信任構建的基礎設施/ 168
6.1.2 區(qū)塊鏈發(fā)展歷史/ 169
6.1.3 區(qū)塊鏈架構劃分/ 170
6.2 區(qū)塊鏈數(shù)據(jù)存儲/ 170
6.2.1 鏈式數(shù)據(jù)結構/ 170
6.2.2 默克爾樹/ 171
6.2.3 區(qū)塊數(shù)據(jù)和狀態(tài)數(shù)據(jù)/ 172
6.2.4 數(shù)據(jù)存儲方式/ 174
6.3 共識算法/ 176
6.3.1 PoX系列/ 177
6.3.2 Raft共識協(xié)議/ 179
6.3.3 PBFT協(xié)議/ 180
6.4 交易處理方式/ 182
6.4.1 “共識-執(zhí)行”模型/ 183
6.4.2 “執(zhí)行-共識-驗證”模式/ 185
6.4.3 分片執(zhí)行/ 187
6.5 區(qū)塊鏈查詢方法/ 189
6.5.1 可驗證查詢/ 189
6.5.2 基于可信執(zhí)行環(huán)境的查詢處理/ 191
6.6 本講小結/ 192
參考文獻/ 192
第7講 數(shù)據(jù)質(zhì)量管理本講概覽/ 196
7.1 概述/ 196
7.1.1 數(shù)據(jù)質(zhì)量管理的意義與價值/ 196
7.1.2 數(shù)據(jù)質(zhì)量管理研究歷程介紹/ 198
7.2 數(shù)據(jù)質(zhì)量/ 200
7.2.1 數(shù)據(jù)質(zhì)量維度/ 200
7.2.2 數(shù)據(jù)質(zhì)量評估模型/ 201
7.2.3 數(shù)據(jù)可用性問題/ 203
7.3 數(shù)據(jù)可用性理論研究/ 204
7.3.1 數(shù)據(jù)可用性概念與表達機理/ 205
7.3.2 數(shù)據(jù)可用性的判定理論/ 207
7.3.3 大數(shù)據(jù)量質(zhì)融合管理理論與技術/ 209
7.3.4 弱可用數(shù)據(jù)的近似計算理論與算法/ 210
7.4 數(shù)據(jù)清洗技術研究/ 212
7.4.1 數(shù)據(jù)質(zhì)量問題分類/ 212
7.4.2 清洗流程概述/ 213
7.5 數(shù)據(jù)質(zhì)量持續(xù)改進模型與技術/ 214
7.5.1 人工參與的數(shù)據(jù)清洗模型/ 214
7.5.2 面向大數(shù)據(jù)的清洗技術/ 219
7.5.3 數(shù)據(jù)質(zhì)量問題溯源分析技術/ 223
7.5.4 人工智能賦能的數(shù)據(jù)清洗技術/ 226
7.6 數(shù)據(jù)清洗工具與系統(tǒng)介紹/ 229
7.6.1 基于規(guī)則約束的數(shù)據(jù)清洗工具/ 229
7.6.2 基于眾包的數(shù)據(jù)清洗工具/ 235
7.6.3 基于