信息檢索是我們理解這個(gè)世界的重要手段之一,隨著技術(shù)的進(jìn)步,我們的檢索行為也在不斷變化。伴隨著人工智能時(shí)代的到來,大數(shù)據(jù)的涌現(xiàn)以及萬物互聯(lián)的場景對(duì)信息的獲取、理解和運(yùn)用提出了新的需求,特別是大模型的出現(xiàn),有望重塑信息檢索的架構(gòu)與技術(shù)體系。本書以信息檢索系統(tǒng)架構(gòu)為抓手,圍繞檢索系統(tǒng)的各個(gè)技術(shù)模塊展開對(duì)神經(jīng)檢索前沿技術(shù)的介紹。一方面,幫助讀者快速了解傳統(tǒng)技術(shù)的發(fā)展現(xiàn)狀;另一方面,深入介紹深度學(xué)習(xí)技術(shù)給該研究問題所帶來的主要變革和前沿成果。由此,讀者可以通過本書較為全面地了解信息檢索領(lǐng)域過去與當(dāng)前發(fā)展的面貌。
孫凝暉院士作序,張亞勤、翟成祥、李航聯(lián)合推薦!
學(xué)術(shù)大牛帶你了解信息檢索核心技術(shù)、大模型前沿應(yīng)用挑戰(zhàn)
作者團(tuán)隊(duì)既有文章又有產(chǎn)業(yè)應(yīng)用,代表技術(shù)成果:Top-K 排序?qū)W習(xí)、短文本話題建模、深度文本匹配、預(yù)訓(xùn)練檢索模型以及生成式檢索等
郭嘉豐
中國科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,現(xiàn)任網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室主任,中國中文信息學(xué)會(huì)信息檢索專委會(huì)副主任,國家自然科學(xué)基金優(yōu)秀青年基金獲得者。長期從事智能信息檢索與大數(shù)據(jù)分析方向研究,研究成果四次獲得本領(lǐng)域重要國際會(huì)議優(yōu)秀論文類獎(jiǎng)勵(lì)、兩次獲得國家獎(jiǎng)勵(lì)。
蘭艷艷
清華大學(xué)智能產(chǎn)業(yè)研究院研究員,曾任中國科學(xué)院計(jì)算技術(shù)研究所研究員,主要研究方向?yàn)樾畔z索、人工智能賦能科學(xué)計(jì)算和智能藥物研發(fā)。研究成果獲 SIGIR 優(yōu)秀學(xué)生論文獎(jiǎng)和 CIKM 優(yōu)秀論文提名獎(jiǎng),入選國家萬人計(jì)劃青年拔尖人才,擔(dān)任中國中文信息學(xué)會(huì)信息檢索專委會(huì)秘書長,Artificial Intelligence Associate Editor。
程學(xué)旗
中國科學(xué)院計(jì)算技術(shù)研究所副所長,國家杰出青年科學(xué)基金獲得者,國家高層次人才,北京學(xué)者,CCF 會(huì)士。任 CCF大數(shù)據(jù)專家委員會(huì)秘書長、CCF 中國數(shù)字經(jīng)濟(jì) 50 人論壇秘書長、中國中文信息學(xué)會(huì)副理事長。長期從事網(wǎng)絡(luò)數(shù)據(jù)科學(xué)、大數(shù)據(jù)系統(tǒng)、社會(huì)計(jì)算、Web 信息檢索與數(shù)據(jù)挖掘等方向研究。研究成果六次獲得本領(lǐng)域top級(jí)國際學(xué)術(shù)會(huì)議優(yōu)秀論文獎(jiǎng),關(guān)鍵技術(shù)與系統(tǒng)成果四次獲得國家科技獎(jiǎng)勵(lì)。
第 1章 引言 1
1.1 信息檢索技術(shù)的發(fā)展歷史 2
1.2 信息檢索的代表性任務(wù) 4
1.2.1 ad-hoc 檢索 5
1.2.2 問答 6
1.2.3 社區(qū)問答 7
1.2.4 自動(dòng)對(duì)話 8
1.3 信息檢索的評(píng)價(jià)方法 9
1.4 深度學(xué)習(xí)與信息檢索的結(jié)合 12
第 2章 深度文本索引 17
2.1 基礎(chǔ)知識(shí) 19
2.1.1 基于符號(hào)的文檔表示方法 20
2.1.2 面向符號(hào)表示的文檔索引方法 25
2.2 深度文本索引方法 32
2.2.1 基于稠密向量的文檔表示 33
2.2.2 稠密向量索引 36
2.3 小結(jié) 57
第3章 深度文本檢索 59
3.1 基礎(chǔ)知識(shí) 61
3.1.1 問題形式化 61
3.1.2 經(jīng)典詞項(xiàng)檢索模型 62
3.1.3 早期語義檢索方法 66
3.2 深度檢索模型 70
3.2.1 基于稀疏向量表示的檢索模型 71
3.2.2 基于稠密向量表示的檢索模型 75
3.2.3 稀疏– 稠密向量混合檢索方法 90
3.3 小結(jié) 94
第4章 深度文本匹配 96
4.1 基礎(chǔ)知識(shí) 98
4.1.1 問題形式化 98
4.1.2 學(xué)習(xí)目標(biāo) 99
4.2 深度匹配模型 104
4.2.1 對(duì)稱與非對(duì)稱架構(gòu) 104
4.2.2 注重表示與注重交互的架構(gòu) 108
4.2.3 單粒度與多粒度的架構(gòu) 112
4.3 小結(jié) 115
第5章 深度關(guān)系排序 116
5.1 基礎(chǔ)知識(shí) 117
5.1.1 問題定義和評(píng)價(jià)指標(biāo) 117
5.1.2 傳統(tǒng)關(guān)系排序方法 120
5.2 深度關(guān)系排序模型 133
5.2.1 基于貪婪選擇的深度關(guān)系排序模型 133
5.2.2 基于全局決策的深度關(guān)系排序模型 142
5.3 小結(jié) 158
第6章 深度查詢理解 160
6.1 傳統(tǒng)的查詢理解方法 161
6.2 基于深度學(xué)習(xí)的查詢改進(jìn) 163
6.2.1 基于深度學(xué)習(xí)的查詢修正 164
6.2.2 基于深度學(xué)習(xí)的查詢擴(kuò)展 167
6.3 基于深度學(xué)習(xí)的查詢推薦 170
6.4 基于深度學(xué)習(xí)的查詢意圖識(shí)別 173
6.4.1 基于深度學(xué)習(xí)的查詢分類 173
6.4.2 基于深度學(xué)習(xí)的查詢聚類 175
6.5 小結(jié) 177
第7章 交互式信息檢索 178
7.1 基礎(chǔ)知識(shí) 179
7.1.1 交互的概念 179
7.1.2 合作博弈框架 181
7.2 深度交互式信息檢索模型 193
7.2.1 代理搜索模型 194
7.2.2 會(huì)話搜索模型 200
7.2.3 對(duì)話搜索模型 203
7.3 小結(jié) 207
第8章 基于預(yù)訓(xùn)練的信息檢索 209
8.1 基礎(chǔ)預(yù)訓(xùn)練模型 211
8.1.1 面向判別式任務(wù)的預(yù)訓(xùn)練模型 211
8.1.2 面向生成式任務(wù)的預(yù)訓(xùn)練模型 215
8.2 面向檢索的預(yù)訓(xùn)練模型 217
8.2.1 預(yù)訓(xùn)練表示模型 218
8.2.2 預(yù)訓(xùn)練交互模型 222
8.3 小結(jié) 226
參考文獻(xiàn)(圖靈社區(qū)下載)