《圖數(shù)據(jù)管理與挖掘》介紹了圖數(shù)據(jù)管理與挖掘的關(guān)鍵技術(shù),涵蓋基于集合相似度的子圖匹配查詢處理方法與原型系統(tǒng)、情境感知的個性化推薦方法、利用多層聚簇的跨類協(xié)同過濾推薦算法、基于潛在主題的準(zhǔn)確性Web社區(qū)協(xié)同推薦方法、基于用戶社區(qū)全域關(guān)系閉包的高效均衡性Web社區(qū)推薦方法、Web社區(qū)推薦原型系統(tǒng)、大規(guī)模時空圖中人類行為模式的實時挖掘方法、基于潛在引用圖數(shù)據(jù)的專利價值評估方法、基于專利關(guān)聯(lián)的新穎專利查找方法,以及異構(gòu)專利網(wǎng)絡(luò)中的競爭對手主題預(yù)測方法。
《圖數(shù)據(jù)管理與挖掘》適合計算機(jī)、信息管理等相關(guān)專業(yè)的高年級本科生和研究生閱讀,也可作為數(shù)據(jù)科學(xué)等相關(guān)領(lǐng)域的研究與開發(fā)人員的參考書。
更多科學(xué)出版社服務(wù),請掃碼獲取。
最近幾年,圖數(shù)據(jù)管理與挖掘技術(shù)的發(fā)展和應(yīng)用引起了國內(nèi)外研究者和工業(yè)界的極大興趣。圖作為一種常見的數(shù)據(jù)表示模型,用于建模復(fù)雜數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)聯(lián),例如社會網(wǎng)絡(luò)、語義網(wǎng)、路網(wǎng)、生物網(wǎng)絡(luò)、專利網(wǎng)絡(luò)等。圖數(shù)據(jù)庫是指被存儲的數(shù)據(jù)對象是基于圖數(shù)據(jù)模型的。圖數(shù)據(jù)管理的核心問題是圖數(shù)據(jù)庫的查詢處理,即基于圖模型的結(jié)構(gòu)查詢,例如子圖匹配查詢、路徑可達(dá)性查詢、路徑距離查詢等。雖然從某種角度上來說,圖數(shù)據(jù)庫中的查詢也可以用SQL語言來表達(dá),利用現(xiàn)有的RDBMS的查詢功能來完成,但是這樣的查詢系統(tǒng)的性能是非常低的。圖數(shù)據(jù)管理研究的關(guān)鍵點是如何設(shè)計有效的索引結(jié)構(gòu)和查詢算法來快速地回答圖數(shù)據(jù)庫中的結(jié)構(gòu)查詢問題。圖數(shù)據(jù)挖掘相比于關(guān)系數(shù)據(jù)庫的挖掘更強(qiáng)調(diào)的是發(fā)現(xiàn)與分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的關(guān)聯(lián)關(guān)系在數(shù)據(jù)挖掘和分析的過程中越來越受到重視,是商務(wù)智能、決策支持、科學(xué)研究等領(lǐng)域的核心問題與難點。對于圖數(shù)據(jù)管理與挖掘查詢的研究最早可以追溯到20世紀(jì)90年代。最近,由于社會網(wǎng)絡(luò)數(shù)據(jù),專利網(wǎng)絡(luò)數(shù)據(jù),以及語義網(wǎng)數(shù)據(jù)等領(lǐng)域大數(shù)據(jù)的大量出現(xiàn),引起了對于圖數(shù)據(jù)管理與挖掘的新一輪研究熱潮。在最近幾年的三大國際數(shù)據(jù)庫頂級會議(SIGMOD,VLDB和ICDE)上均有圖數(shù)據(jù)管理與挖掘的相關(guān)論文,并且數(shù)量與比例逐年上升。
社會網(wǎng)絡(luò)、時空圖以及專利網(wǎng)絡(luò)具有天然的圖數(shù)據(jù)特征,數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)以及大數(shù)據(jù)的產(chǎn)生給管理和挖掘這些數(shù)據(jù)帶來了巨大的挑戰(zhàn)。本書以圖數(shù)據(jù)理論與模型為基礎(chǔ),面向社會網(wǎng)絡(luò)、時空圖、專利網(wǎng)絡(luò)等應(yīng)用領(lǐng)域,提出了一系列的圖數(shù)據(jù)管理與挖掘關(guān)鍵技術(shù)。
本書的撰寫得到武漢大學(xué)多位教師、同學(xué)的大力協(xié)助和支持,尤其是余騫博士和馮嶺博士對本書部分內(nèi)容的撰寫做出了貢獻(xiàn),對他們的辛勤付出表示由衷的感謝!感謝相關(guān)學(xué)術(shù)研究的合作者,你們在我學(xué)習(xí)和研究道路上給予了大量的幫助和指導(dǎo)。感謝家人的陪伴、支持和鼓勵。
本研究受到國家重點基礎(chǔ)研究發(fā)展計劃(973計劃)“科學(xué)大數(shù)據(jù)管理系統(tǒng)(面向特定領(lǐng)域的大數(shù)據(jù)管理系統(tǒng))”子課題“圖數(shù)據(jù)管理關(guān)鍵技術(shù)及系統(tǒng)”(編號:2016YFB1000603),國家自然科學(xué)基金青年基金項目“移動社會網(wǎng)絡(luò)中基于信任關(guān)系的情境感知推薦研究”(編號:61303025),以及國家自然科學(xué)基金重點國際合作研究項目“大數(shù)據(jù)環(huán)境下的知識組織與服務(wù)創(chuàng)新研究”(編號:71420107026)的資助,作者在此表示衷心的感謝。
收起全部↑
目錄
前言
第1章 大圖數(shù)據(jù)庫中基于集合相似度的子圖匹配查詢處理方法1
1.1 引言1
1.2 預(yù)備知識4
1.2.1 問題定義4
1.2.2 架構(gòu)5
1.3 集合相似度剪枝6
1.3.1 倒排模式格的構(gòu)建7
1.3.2 剪枝技術(shù)8
1.3.3 倒排模式格的優(yōu)化10
1.4 基于結(jié)構(gòu)的剪枝操作11
1.4.1 結(jié)構(gòu)化簽名11
1.4.2 基于簽名的LSH12
1.4.3 結(jié)構(gòu)化剪枝12
1.5 基于支配集的子圖匹配14
1.5.1 DS-匹配算法14
1.5.2 支配集的選擇17
1.6 實驗分析18
1.6.1 數(shù)據(jù)集合設(shè)置18
1.6.2 比較方法19
1.6.3 線下性能19
1.6.4 線上性能20
1.7 結(jié)論26
第2章 基于集合相似度的子圖匹配查詢原型系統(tǒng)27
2.1 引言27
2.2 預(yù)備知識29
2.2.1 問題定義29
2.2.2 方法概覽30
2.3 簽名及DS-Tree31
2.3.1 查詢簽名和數(shù)據(jù)簽名31
2.3.2 DS-Tree32
2.3.3 利用DS-Tree查詢36
2.4 支配子圖38
2.5 SMOC 算法41
2.6 實驗42
2.6.1 數(shù)據(jù)集和實驗環(huán)境42
2.6.2 對比方法43
2.6.3 離線處理性能43
2.6.4 在線處理性能45
2.7 結(jié)論46
第3章 利用社會網(wǎng)絡(luò)圖數(shù)據(jù)的情境感知個性化推薦方法47
3.1 引言47
3.2 預(yù)備知識49
3.2.1 問題定義50
3.2.2 方法框架50
3.3 角色挖掘52
3.3.1 角色的定義52
3.3.2 用條件數(shù)據(jù)庫進(jìn)行角色挖掘52
3.3.3 情境感知的角色權(quán)重54
3.4 基于角色的信任模型55
3.5 尋找相似用戶56
3.5.1 WSSQ算法概述57
3.5.2 前綴過濾58
3.5.3 L1-范數(shù)過濾59
3.5.4 相似度計算的優(yōu)化60
3.6 推薦方法62
3.7 實驗評價63
3.7.1 數(shù)據(jù)集描述63
3.7.2 對比方法63
3.7.3 對角色挖掘和信任模型的評價64
3.7.4 推薦質(zhì)量65
3.7.5 推薦時間69
3.8 結(jié)論72
第4章 多層聚簇中基于協(xié)同過濾的跨類推薦算法73
4.1 引言73
4.2 預(yù)備知識74
4.2.1 問題定義74
4.2.2 算法框架75
4.3 多層聚簇75
4.4 利用多層聚簇推薦78
4.4.1 推薦框架78
4.4.2 Top-k推薦79
4.5 實驗80
4.5.1 數(shù)據(jù)集80
4.5.2 對比方法81
4.5.3 評價標(biāo)準(zhǔn)81
4.5.4 參數(shù)設(shè)置81
4.5.5 minsup的影響81
4.5.6 效率和擴(kuò)展性82
4.6 結(jié)論84
第5章 基于潛在主題的準(zhǔn)確性Web社區(qū)協(xié)同推薦方法85
5.1 引言85
5.2 基于潛在主題的Web社區(qū)協(xié)同推薦方法86
5.2.1 方法框架87
5.2.2 ITS值計算88
5.2.3 ETS值計算91
5.2.4 IETS值計算93
5.2.5 可擴(kuò)展性95
5.3 實驗及分析95
5.3.1 數(shù)據(jù)集描述96
5.3.2 實驗方案96
5.3.3 實驗結(jié)果96
5.4 結(jié)論99
第6章 基于用戶-社區(qū)全域關(guān)系的新穎性Web社區(qū)推薦方法100
6.1 引言100
6.2 UCTR 方法102
6.2.1 UCTR 方法框架103
6.2.2 社區(qū)準(zhǔn)確度計算104
6.2.3 社區(qū)新穎度計算105
6.2.4 社區(qū)UCTR值計算108
6.3 實驗及分析108
6.3.1 數(shù)據(jù)集描述109
6.3.2 推薦準(zhǔn)確性評價109
6.3.3 推薦新穎性評價111
6.3.4 推薦綜合評價112
6.4 結(jié)論113
第7章 基于用戶-社區(qū)全域關(guān)系閉包的高效均衡性Web社區(qū)推薦方法114
7.1 引言114
7.2 NovelRec方法116
7.2.1 方法框架117
7.2.2 離線建模計算118
7.2.3 在線推薦計算121
7.2.4 NovelRec復(fù)雜度分析126
7.2.5 用戶冷啟動分析127
7.3 實驗及分析128
7.3.1 實驗數(shù)據(jù)分析128
7.3.2 推薦準(zhǔn)確性分析130
7.3.3 推薦新穎性分析132
7.3.4 NovelRec性能分析135
7.4 結(jié)論138
第8章 Web社區(qū)推薦原型系統(tǒng)139
8.1 引言139
8.2 Web 社區(qū)建模139
8.2.1 對象代理模型概述139
8.2.2 利用對象代理模型建模Web社區(qū)140
8.3 Web 社區(qū)管理原型系統(tǒng)143
8.3.1 對象代理數(shù)據(jù)庫概述143
8.3.2 基于TOTEM 的Web社區(qū)管理系統(tǒng)145
8.4 Web 社區(qū)推薦原型系統(tǒng)147
8.4.1 推薦系統(tǒng)實現(xiàn)機(jī)制147
8.4.2 推薦系統(tǒng)功能效果148
8.5 結(jié)論150
第9章 大規(guī)模時空圖中人類行為模式的實時挖掘方法151
9.1 引言151
9.2 預(yù)備知識153
9.2.1 定義153
9.2.2 問題陳述154
9.2.3 框架154
9.3 在單一時間間隔中的黑洞檢測155
9.3.1 STG索引155
9.3.2 候選網(wǎng)格選擇156
9.3.3 空間擴(kuò)展158
9.3.4 流上限更新159
9.4 連續(xù)檢測159
9.5 實驗評估161
9.5.1 數(shù)據(jù)161
9.5.2 北京市案例研究162
9.5.3 紐約市案例研究165
9.5.4 在單一時段內(nèi)的表現(xiàn)167
9.5.5 連續(xù)檢測的表現(xiàn)169
9.6 結(jié)論171
第10章 基于潛在引用圖數(shù)據(jù)的專利價值評估方法172
10.1 引言172
10.2 潛在引用關(guān)聯(lián)174
10.3 專利價值評估基本算法175
10.4 專利價值評估改進(jìn)算法179
10.5 專利價值評估更新算法181
10.6 實驗評估184
10.6.1 實驗設(shè)置184
10.6.2 評估方法185
10.6.3 結(jié)果與分析185
10.7 結(jié)論188
第11章 基于專利關(guān)聯(lián)的新穎專利查找方法189
11.1 引言189
11.2 相對新穎圖191
11.3 專利新穎度排序算法193
11.4 專利新穎度更新算法195
11.5 實驗評估200
11.5.1 實驗設(shè)置200
11.5.2 評估方法201
11.5.3 結(jié)果與分析201
11.6 結(jié)論204
第12章 異構(gòu)專利網(wǎng)絡(luò)中的競爭對手主題預(yù)測方法205
12.1 引言205
12.2 競爭對手的主題預(yù)測的框架207
12.3 主題詞選取208
12.4 建立企業(yè)-主題異構(gòu)圖208
12.5 拓?fù)涮卣鞯姆治龊统槿?10
12.6 基于監(jiān)督模型的主題預(yù)測方法213
12.7 實驗評估215
12.7.1 實驗設(shè)置215
12.7.2 評估方法216
12.7.3 結(jié)果與分析217
12.8 結(jié)論220
參考文獻(xiàn)221