定 價(jià):79 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:[美]張超(Chao Zhang) 韓家煒(Jiawei Han)
- 出版時(shí)間:2020/7/1
- ISBN:9787111659907
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:0
- 紙張:
- 版次:
- 開(kāi)本:16開(kāi)
本書由國(guó)際數(shù)據(jù)挖掘領(lǐng)域泰斗、UIUC韓家瑋教授和其學(xué)生張超博士(現(xiàn)為佐治亞理工學(xué)院助理教授)合著。介紹了將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)換為多維知識(shí)的數(shù)據(jù)挖掘技術(shù),并講解了他們開(kāi)發(fā)的文本多維數(shù)據(jù)集框架的原理和使用方法。
譯者序
作者簡(jiǎn)介
譯者簡(jiǎn)介
第1章 引言 1
1.1 概述 1
1.2 主要部分 3
1.2.1 第一部分:立方體構(gòu)造 3
1.2.2 第二部分:立方體開(kāi)發(fā) 5
1.2.3 示例應(yīng)用 5
1.3 技術(shù)路線 6
1.3.1 任務(wù)1:分類器生成 7
1.3.2 任務(wù)2:文檔分配 8
1.3.3 任務(wù)3:多維摘要 8
1.3.4 任務(wù)4:跨維度預(yù)測(cè) 9
1.3.5 任務(wù)5:異常事件檢測(cè) 9
1.3.6 小結(jié) 9
1.4 本書大綱 10
第一部分 立方體構(gòu)造算法
第2章 主題級(jí)分類器生成 12
2.1 概述 12
2.2 相關(guān)工作 15
2.2.1 監(jiān)督分類器學(xué)習(xí) 15
2.2.2 基于模式的提取 15
2.2.3 基于聚類的分類器構(gòu)建 16
2.3 準(zhǔn)備工作 17
2.3.1 問(wèn)題定義 17
2.3.2 方法概述 17
2.4 自適應(yīng)詞聚類 18
2.4.1 劃分主題的球形聚類 18
2.4.2 識(shí)別代表性詞語(yǔ) 20
2.5 自適應(yīng)詞嵌入 21
2.5.1 分布式詞語(yǔ)表示 21
2.5.2 學(xué)習(xí)局部詞嵌入 21
2.6 實(shí)驗(yàn)評(píng)估 22
2.6.1 實(shí)驗(yàn)設(shè)計(jì) 22
2.6.2 定性結(jié)果 24
2.6.3 定量分析 27
2.7 小結(jié) 29
第3章 詞語(yǔ)級(jí)分類器生成 30
3.1 概述 30
3.2 相關(guān)工作 32
3.3 問(wèn)題定義 33
3.4 HiExpan框架 33
3.4.1 框架概述 33
3.4.2 關(guān)鍵詞提取 34
3.4.3 層次樹擴(kuò)展 34
3.4.4 分類器全局優(yōu)化 41
3.5 實(shí)驗(yàn) 42
3.5.1 實(shí)驗(yàn)設(shè)計(jì) 42
3.5.2 定性結(jié)果 43
3.5.3 定量結(jié)果 44
3.6 小結(jié) 47
第4章 弱監(jiān)督文本分類 48
4.1 概述 48
4.2 相關(guān)工作 51
4.2.1 潛在變量模型 51
4.2.2 基于嵌入的模型 51
4.3 準(zhǔn)備工作 52
4.3.1 問(wèn)題定義 52
4.3.2 方法概述 53
4.4 偽文檔生成 53
4.4.1 建模類分布 53
4.4.2 生成偽文檔 55
4.5 自訓(xùn)練的神經(jīng)模型 56
4.5.1 神經(jīng)模型預(yù)訓(xùn)練 56
4.5.2 神經(jīng)模型自訓(xùn)練 57
4.5.3 基于CNN和RNN的實(shí)例化 58
4.6 實(shí)驗(yàn) 59
4.6.1 數(shù)據(jù)集 59
4.6.2 基線 59
4.6.3 實(shí)驗(yàn)設(shè)計(jì) 60
4.6.4 實(shí)驗(yàn)結(jié)果 61
4.6.5 參數(shù)研究 65
4.6.6 案例研究 67
4.7 小結(jié) 68
第5章 弱監(jiān)督層次文本分類 69
5.1 概述 69
5.2 相關(guān)工作 71
5.2.1 弱監(jiān)督文本分類 71
5.2.2 層次文本分類 71
5.3 問(wèn)題定義 72
5.4 偽文檔生成 72
5.5 層次分類模型 74
5.5.1 局部分類器預(yù)訓(xùn)練 75
5.5.2 全局分類器自訓(xùn)練 75
5.5.3 阻斷機(jī)制 77
5.5.4 推導(dǎo) 77
5.5.5 算法概述 77
5.6 實(shí)驗(yàn) 78
5.6.1 實(shí)驗(yàn)設(shè)計(jì) 78
5.6.2 定量比較 80
5.6.3 組件評(píng)估 82
5.7 小結(jié) 84
第二部分 立方體開(kāi)發(fā)算法
第6章 多維摘要 86
6.1 概述 86
6.2 相關(guān)工作 89
6.3 準(zhǔn)備工作 90
6.3.1 文本立方體準(zhǔn)備 90
6.3.2 問(wèn)題定義 91
6.4 排名度量 91
6.4.1 普遍性和完整性 92
6.4.2 鄰域敏感的獨(dú)特性 92
6.5 RepPhrase方法 96
6.5.1 簡(jiǎn)介 96
6.5.2 混合離線物化 97
6.5.3 最優(yōu)在線處理 100
6.6 實(shí)驗(yàn) 101
6.6.1 實(shí)驗(yàn)設(shè)計(jì) 101
6.6.2 有效性評(píng)估 103
6.6.3 效率評(píng)估 107
6.7 小結(jié) 111
第7章 立方體空間中的跨維度預(yù)測(cè) 112
7.1 概述 112
7.2 相關(guān)工作 114
7.3 準(zhǔn)備工作 115
7.3.1 問(wèn)題描述 115
7.3.2 方法概述 115
7.4 半監(jiān)督多模態(tài)嵌入 117
7.4.1 無(wú)監(jiān)督重構(gòu)任務(wù) 117
7.4.2 監(jiān)督分類任務(wù) 119
7.4.3 優(yōu)化程序 119
7.5 多模態(tài)嵌入的在線更新 120
7.5.1 生命衰減學(xué)習(xí) 120
7.5.2 基于約束的學(xué)習(xí) 121
7.5.3 復(fù)雜度分析 124
7.6 實(shí)驗(yàn) 124
7.6.1 實(shí)驗(yàn)設(shè)計(jì) 124
7.6.2 定量比較 127
7.6.3 案例研究 129
7.6.4 參數(shù)影響 132
7.6.5 下游應(yīng)用 134
7.7 小結(jié) 135
第8章 立方體空間中的事件檢測(cè) 136
8.1 概述 136
8.2 相關(guān)工作 138
8.2.1 突發(fā)事件檢測(cè) 138
8.2.2 時(shí)空事件檢測(cè) 139
8.3 準(zhǔn)備工作 140
8.3.1 問(wèn)題定義 140
8.3.2 方法概述 140
8.3.3 多模態(tài)嵌入 142
8.4 候選生成 143
8.4.1 貝葉斯混合聚類模型 144
8.4.2 參數(shù)評(píng)估 145
8.5 候選分類 146
8.5.1 多模態(tài)嵌入的特征推導(dǎo) 146
8.5.2 分類過(guò)程 147
8.6 支持持續(xù)的事件檢測(cè) 147
8.7 復(fù)雜度分析 148
8.8 實(shí)驗(yàn) 148
8.8.1 實(shí)驗(yàn)設(shè)計(jì) 148
8.8.2 定性結(jié)果 150
8.8.3 定量結(jié)果 153
8.8.4 可擴(kuò)展性研究 154
8.8.5 特征的重要性 155
8.9 小結(jié) 156
第9章 結(jié)論 157
9.1 總結(jié) 157
9.2 未來(lái)工作 158
參考文獻(xiàn) 160