解構(gòu)大語(yǔ)言模型:從線(xiàn)性回歸到通用人工智能
定 價(jià):159 元
- 作者:唐亙
- 出版時(shí)間:2024/5/1
- ISBN:9787121477409
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP391
- 頁(yè)碼:432
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)從模型的結(jié)構(gòu)和數(shù)據(jù)基礎(chǔ)兩個(gè)方面解構(gòu)大語(yǔ)言模型,以便幫助讀者理解和搭建類(lèi)似ChatGPT的系統(tǒng)。在模型的結(jié)構(gòu)方面,大語(yǔ)言模型屬于深度神經(jīng)網(wǎng)絡(luò),其設(shè)計(jì)核心是注意力機(jī)制,因此,本書(shū)涵蓋了多層感知器、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等經(jīng)典模型。在模型的數(shù)據(jù)基礎(chǔ)方面,本書(shū)既涉及模型訓(xùn)練的工程基礎(chǔ),如反向傳播,又涉及數(shù)據(jù)的使用方式,如遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí),以及傳統(tǒng)的監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。此外,本書(shū)還闡述了如何從計(jì)量經(jīng)濟(jì)學(xué)和經(jīng)典機(jī)器學(xué)習(xí)模型中汲取靈感,以提高模型的穩(wěn)定性和可解釋性。本書(shū)既適用于希望深入了解大語(yǔ)言模型、通過(guò)人工智能技術(shù)解決實(shí)際問(wèn)題的讀者,也適合作為高等院校計(jì)算機(jī)及相關(guān)專(zhuān)業(yè)的師生參考用書(shū)。
唐亙,數(shù)據(jù)科學(xué)家,專(zhuān)注于人工智能和大數(shù)據(jù),積極參與Apache Spark、scikit-learn等開(kāi)源項(xiàng)目,曾為華為、復(fù)旦大學(xué)等多家機(jī)構(gòu)提供過(guò)百余場(chǎng)技術(shù)培訓(xùn)。曾撰寫(xiě)《精通數(shù)據(jù)科學(xué):從線(xiàn)性回歸到深度學(xué)習(xí)》一書(shū),并擔(dān)任英國(guó)最大在線(xiàn)出版社Packt的技術(shù)審稿人。畢業(yè)于復(fù)旦大學(xué),獲數(shù)學(xué)和計(jì)算機(jī)雙學(xué)士學(xué)位,后求學(xué)于巴黎綜合理工學(xué)院,獲經(jīng)濟(jì)學(xué)和數(shù)據(jù)科學(xué)雙碩士學(xué)位。
第1章 緒論 2
1.1 是數(shù)字鸚鵡,還是自我意識(shí) 3
1.1.1 電車(chē)難題 3
1.1.2 任務(wù)分解 4
1.2 數(shù)據(jù)基礎(chǔ) 5
1.3 模型結(jié)構(gòu) 7
1.4 關(guān)于本書(shū) 9
第2章 數(shù)學(xué)基礎(chǔ):不可或缺的知識(shí) 12
2.1 向量、矩陣和張量 13
2.1.1 標(biāo)量、向量、矩陣與張量 13
2.1.2 數(shù)學(xué)記號(hào)與特殊矩陣 14
2.1.3 矩陣運(yùn)算 15
2.1.4 向量夾角 18
2.1.5 矩陣的秩 19
2.1.6 高維張量運(yùn)算 20
2.2 概率 21
2.2.1 定義概率:事件和概率空間 22
2.2.2 條件概率:信息的價(jià)值 23
2.2.3 隨機(jī)變量 24
2.2.4 正態(tài)分布:殊途同歸 27
2.2.5 P-value:自信的猜測(cè) 28
2.3 微積分 30
2.3.1 導(dǎo)數(shù)和積分 30
2.3.2 極限 32
2.3.3 鏈?zhǔn)椒▌t 33
2.3.4 偏導(dǎo)數(shù)與梯度 34
2.3.5 極值與最值 34
2.4 本章小結(jié) 35
第3章 線(xiàn)性回歸:模型之母 38
3.1 一個(gè)簡(jiǎn)單的例子 39
3.1.1 機(jī)器學(xué)習(xí)的建模方式 40
3.1.2 統(tǒng)計(jì)分析的建模方式 43
3.2 模型實(shí)現(xiàn) 47
3.2.1 機(jī)器學(xué)習(xí)的代碼實(shí)現(xiàn) 47
3.2.2 統(tǒng)計(jì)分析的代碼實(shí)現(xiàn) 49
3.3 模型陷阱 52
3.3.1 過(guò)擬合:模型越復(fù)雜越好嗎 53
3.3.2 假設(shè)檢驗(yàn):統(tǒng)計(jì)分析的解決方案 56
3.3.3 懲罰項(xiàng):機(jī)器學(xué)習(xí)的解決方案 57
3.3.4 比較兩種方案 60
3.4 面向未來(lái)的準(zhǔn)備 60
3.4.1 圖形表示與數(shù)學(xué)表達(dá) 61
3.4.2 模型的生命周期與持久化 62
3.5 本章小結(jié) 63
3.5.1 要點(diǎn)回顧 63
3.5.2 常見(jiàn)面試問(wèn)題 64
第4章 邏輯回歸:隱藏因子 68
4.1 二元分類(lèi)問(wèn)題:是與否 68
4.1.1 線(xiàn)性回歸:為何失效 69
4.1.2 窗口效應(yīng):看不見(jiàn)的才是關(guān)鍵 70
4.1.3 邏輯分布 72
4.1.4 似然函數(shù):統(tǒng)計(jì)分析的參數(shù)估計(jì) 74
4.1.5 損失函數(shù):機(jī)器學(xué)習(xí)的參數(shù)估計(jì) 75
4.1.6 最終預(yù)測(cè):從概率到類(lèi)別 76
4.2 模型實(shí)現(xiàn) 76
4.2.1 初步分析數(shù)據(jù):直觀(guān)印象 77
4.2.2 搭建模型 79
4.2.3 理解模型結(jié)果 81
4.3 評(píng)估模型效果 82
4.3.1 查準(zhǔn)率與查全率 83
4.3.2 F-score 85
4.3.3 ROC空間 86
4.3.4 ROC曲線(xiàn)與AUC 88
4.3.5 AUC的概率解釋 89
4.4 非均衡數(shù)據(jù)集 90
4.4.1 準(zhǔn)確度悖論 90
4.4.2 模型效果影響 91
4.4.3 解決方案 93
4.5 多元分類(lèi)問(wèn)題:超越是與否 94
4.5.1 多元邏輯回歸 94
4.5.2 One-vs.-All:從二元到多元 95
4.5.3 模型實(shí)現(xiàn) 96
4.6 本章小結(jié) 97
4.6.1 要點(diǎn)回顧 97
4.6.2 常見(jiàn)面試問(wèn)題 98
第5章 計(jì)量經(jīng)濟(jì)學(xué)的啟示:他山之石 100
5.1 定量與定性:特征的數(shù)學(xué)運(yùn)算合理嗎 101
5.2 定性特征的處理 102
5.2.1 虛擬變量 102
5.2.2 定性特征轉(zhuǎn)換為定量特征 104
5.3 定量特征的處理 105
5.3.1 定量特征轉(zhuǎn)換為定性特征 106
5.3.2 基于卡方檢驗(yàn)的方法 108
5.4 多重共線(xiàn)性:多變量的煩惱 109
5.4.1 多重共線(xiàn)性效應(yīng) 110
5.4.2 檢測(cè)多重共線(xiàn)性 113
5.4.3 解決方法 114
5.4.4 虛擬變量陷阱 116
5.5 本章小結(jié) 117
5.5.1 要點(diǎn)回顧 117
5.5.2 常見(jiàn)面試問(wèn)題 118
第6章 最優(yōu)化算法:參數(shù)估計(jì) 120
6.1 算法思路:模擬滾動(dòng) 121
6.2 梯度下降法 122
6.2.1 算法使用的竅門(mén) 124
6.2.2 算法的局限性:局部最優(yōu)與鞍點(diǎn) 125
6.3 梯度下降法的代碼實(shí)現(xiàn) 126
6.3.1 PyTorch基礎(chǔ) 127
6.3.2 利用PyTorch的封裝函數(shù) 130
6.4 隨機(jī)梯度下降法:更優(yōu)化的算法 133
6.4.1 算法細(xì)節(jié) 133
6.4.2 代碼實(shí)現(xiàn) 134
6.4.3 進(jìn)一步優(yōu)化 135
6.5 本章小結(jié) 137
6.5.1 要點(diǎn)回顧 137
6.5.2 常見(jiàn)面試問(wèn)題 138
第7章 反向傳播:神經(jīng)網(wǎng)絡(luò)的工程基礎(chǔ) 140
7.1 計(jì)算圖和向前傳播 141
7.1.1 什么是計(jì)算圖 141
7.1.2 代碼實(shí)現(xiàn) 142
7.2 鏈?zhǔn)椒▌t和反向傳播 145
7.2.1 拓?fù)渑判?146
7.2.2 代碼實(shí)現(xiàn) 146
7.2.3 梯度傳播過(guò)程 148
7.3 參數(shù)估計(jì)的全流程 151
7.3.1 隨機(jī)梯度下降法回顧 151
7.3.2 計(jì)算圖膨脹 152
7.4 動(dòng)態(tài)優(yōu)化 155
7.4.1 梯度累積 155
7.4.2 參數(shù)凍結(jié) 158
7.4.3 隨機(jī)失活 159
7.5 真實(shí)世界:針對(duì)大規(guī)模模型的優(yōu)化技巧 162
7.5.1 GPU計(jì)算 162
7.5.2 混合精度訓(xùn)練 164
7.5.3 梯度檢查點(diǎn) 166
7.5.4 分布式計(jì)算 167
7.6 本章小結(jié) 170
7.6.1 要點(diǎn)回顧 170
7.6.2 常見(jiàn)面試問(wèn)題 171
第8章 多層感知器:神經(jīng)網(wǎng)絡(luò)的“創(chuàng)世記” 174
8.1 感知器模型 175
8.1.1 神經(jīng)元的數(shù)字孿生 175
8.1.2 圖示與計(jì)算圖 177
8.1.3 Sigmoid感知器與邏輯回歸 178
8.1.4 Softmax函數(shù) 179
8.2 從神經(jīng)網(wǎng)絡(luò)的視角重新理解邏輯回歸 181
8.2.1 回顧窗口效應(yīng) 182
8.2.2 代碼實(shí)現(xiàn) 183
8.2.3 損失函數(shù)為模型注入靈魂 185
8.2.4 神經(jīng)網(wǎng)絡(luò)的建模文化:搭積木 186
8.3 多層感知器 187
8.3.1 圖形表示 187
8.3.2 數(shù)學(xué)基礎(chǔ) 189
8.3.3 令人驚訝的通用性 192
8.3.4 代碼實(shí)現(xiàn) 193
8.3.5 模型的聯(lián)結(jié)主義 195
8.4 訓(xùn)練優(yōu)化的關(guān)鍵:激活函數(shù) 197
8.4.1 壞死的神經(jīng)細(xì)胞 198
8.4.2 數(shù)學(xué)基礎(chǔ) 200
8.4.3 監(jiān)控模型訓(xùn)練 201
8.4.4 不穩(wěn)定的梯度 205
8.4.5 激活函數(shù)的改進(jìn) 206
8.5 從第一步開(kāi)始優(yōu)化訓(xùn)練 208
8.5.1 模型損失的預(yù)估 208
8.5.2 參數(shù)初始化的初步優(yōu)化 209
8.5.3 參數(shù)初始化的進(jìn)一步優(yōu)化 212
8.5.4 歸一化層 214
8.6 本章小結(jié) 218
8.6.1 要點(diǎn)回顧 218
8.6.2 常見(jiàn)面試問(wèn)題 219
第9章 卷積神經(jīng)網(wǎng)絡(luò):深度學(xué)習(xí)的“出埃及記” 222
9.1 利用多層感知器識(shí)別數(shù)字 223
9.1.1 視覺(jué)對(duì)象的數(shù)字化 223
9.1.2 搭建模型 224
9.1.3 代碼實(shí)現(xiàn) 226
9.1.4 防止過(guò)擬合之隨機(jī)失活 229
9.1.5 防止過(guò)擬合之懲罰項(xiàng) 231
9.2 卷積神經(jīng)網(wǎng)絡(luò) 233
9.2.1 神經(jīng)元的組織方式 234
9.2.2 卷積層的網(wǎng)絡(luò)結(jié)構(gòu) 235
9.2.3 卷積層的細(xì)節(jié)處理與代碼實(shí)現(xiàn) 237
9.2.4 池化層 239
9.2.5 完整結(jié)構(gòu)與實(shí)現(xiàn) 240
9.2.6 超越圖像識(shí)別 242
9.3 殘差網(wǎng)絡(luò) 243
9.3.1 殘差連接 243
9.3.2 實(shí)現(xiàn)要點(diǎn)和小竅門(mén) 245
9.3.3 代碼實(shí)現(xiàn) 247
9.4 本章小結(jié) 247
9.4.1 要點(diǎn)回顧 247
9.4.2 常見(jiàn)面試問(wèn)題 248
第10章 循環(huán)神經(jīng)網(wǎng)絡(luò):嘗試?yán)斫馊祟?lèi)語(yǔ)言 250
10.1 自然語(yǔ)言處理的基本要素 251
10.1.1 語(yǔ)言數(shù)字化 252
10.1.2 分詞器的語(yǔ)言基礎(chǔ) 253
10.1.3 英文分詞器 254
10.1.4 中文分詞的挑戰(zhàn) 256
10.1.5 學(xué)習(xí)框架:遷移學(xué)習(xí) 258
10.2 利用多層感知器學(xué)習(xí)語(yǔ)言 260
10.2.1 數(shù)據(jù)準(zhǔn)備 260
10.2.2 文本嵌入 263
10.2.3 代碼實(shí)現(xiàn) 265
10.2.4 普通神經(jīng)網(wǎng)絡(luò)的缺陷 266
10.3 循環(huán)神經(jīng)網(wǎng)絡(luò) 267
10.3.1 圖示與結(jié)構(gòu) 268
10.3.2 模型的關(guān)鍵:隱藏狀態(tài) 269
10.3.3 利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)言 271
10.3.4 模型訓(xùn)練與文本生成 272
10.3.5 模型的學(xué)習(xí)原理:通過(guò)時(shí)間的反向傳播 274
10.4 深度循環(huán)神經(jīng)網(wǎng)絡(luò) 275
10.4.1 更優(yōu)雅的代碼實(shí)現(xiàn) 275
10.4.2 批量序列數(shù)據(jù)的處理 277
10.4.3 從單層走向更復(fù)雜的結(jié)構(gòu) 278
10.4.4 利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)言 280
10.5 長(zhǎng)短期記憶網(wǎng)絡(luò) 281
10.5.1 短期記憶 282
10.5.2 模型結(jié)構(gòu) 284
10.5.3 代碼實(shí)現(xiàn) 285
10.5.4 利用長(zhǎng)短期記憶網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)言 287
10.6 本章小結(jié) 290
10.6.1 要點(diǎn)回顧 290
10.6.2 常見(jiàn)面試問(wèn)題 291
第11章 大語(yǔ)言模型:是通用人工智能的開(kāi)始嗎 294
11.1 注意力機(jī)制 295
11.1.1 設(shè)計(jì)初衷 296
11.1.2 改進(jìn)后的注意力機(jī)制 297
11.1.3 數(shù)學(xué)細(xì)節(jié)與實(shí)現(xiàn)技巧 299
11.2 從零開(kāi)始實(shí)現(xiàn)GPT-2 300
11.2.1 模型結(jié)構(gòu) 301
11.2.2 多頭單向注意力 303
11.2.3 解碼塊 304
11.2.4 GPT-2的完整結(jié)構(gòu)與重現(xiàn) 305
11.2.5 Python語(yǔ)言學(xué)習(xí)任務(wù) 307
11.3 從大語(yǔ)言模型到智能助手 308
11.3.1 大語(yǔ)言模型的現(xiàn)狀 308
11.3.2 開(kāi)源模型 310
11.3.3 從GPT到ChatGPT 311
11.3.4 提示工程 313
11.3.5 檢索增強(qiáng)生成 314
11.4 模型微調(diào) 316
11.4.1 模型微調(diào)的4種模式 317
11.4.2 高效調(diào)參概述 318
11.4.3 高效調(diào)參之增加模型組件 319
11.4.4 高效調(diào)參之LoRA 320
11.5 監(jiān)督微調(diào)和評(píng)分建模 323
11.5.1 監(jiān)督微調(diào)初體驗(yàn) 323
11.5.2 更優(yōu)化的監(jiān)督微調(diào) 326
11.5.3 評(píng)分建模 327
11.5.4 如果重新構(gòu)建ChatGPT 330
11.6 超越技術(shù) 331
11.6.1 智能的哲學(xué)基礎(chǔ) 331
11.6.2 血汗工廠(chǎng) 333
11.6.3 碳足跡 334
11.7 本章小結(jié) 335
11.7.1 要點(diǎn)回顧 335
11.7.2 常見(jiàn)面試問(wèn)題 336
第12章 強(qiáng)化學(xué)習(xí):在動(dòng)態(tài)交互中進(jìn)化 338
12.1 大語(yǔ)言模型的持續(xù)優(yōu)化 339
12.1.1 最大化評(píng)分:直觀(guān)但錯(cuò)誤的模型 339
12.1.2 為什么行不通:不可微的運(yùn)算 341
12.1.3 可行的建模方式:調(diào)整損失函數(shù) 343
12.2 強(qiáng)化學(xué)習(xí)簡(jiǎn)介 345
12.2.1 核心概念 345
12.2.2 目標(biāo)定義 346
12.2.3 兩種解決方法 348
12.3 值函數(shù)學(xué)習(xí) 349
12.3.1 MC學(xué)習(xí) 350
12.3.2 貝爾曼方程與TD學(xué)習(xí) 352
12.3.3 利用神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí) 354
12.3.4 n步TD學(xué)習(xí)與優(yōu)勢(shì)函數(shù) 356
12.3.5 TD Lambda學(xué)習(xí)與GAE 357
12.4 策略學(xué)習(xí) 359
12.4.1 策略梯度定理 360
12.4.2 Reinforce算法 361
12.4.3 基準(zhǔn)線(xiàn)算法 362
12.4.4 A2C算法 364
12.5 利用PPO優(yōu)化大語(yǔ)言模型 365
12.5.1 損失函數(shù)與參數(shù)更新 366
12.5.2 從A2C到PPO 367
12.5.3 微調(diào)游戲獎(jiǎng)勵(lì) 369
12.5.4 代碼實(shí)現(xiàn) 371
12.6 本章小結(jié) 375
12.6.1 要點(diǎn)回顧 375
12.6.2 常見(jiàn)面試問(wèn)題 376
第13章 其他經(jīng)典模型:擴(kuò)展視野 380
13.1 決策樹(shù) 381
13.1.1 決策規(guī)則 381
13.1.2 評(píng)判標(biāo)準(zhǔn) 383
13.1.3 決策樹(shù)的預(yù)測(cè)與模型的聯(lián)結(jié) 384
13.1.4 剪枝 386
13.2 樹(shù)的集成 388
13.2.1 隨機(jī)森林 389
13.2.2 梯度提升決策樹(shù) 390
13.3 隱馬爾可夫模型 393
13.3.1 一個(gè)簡(jiǎn)單的例子 393
13.3.2 馬爾可夫鏈 394
13.3.3 模型架構(gòu) 395
13.3.4 股票市場(chǎng)的應(yīng)用 397
13.4 聚類(lèi)與降維 400
13.4.1 經(jīng)典聚類(lèi)模型K-Means 401
13.4.2 如何選擇聚類(lèi)個(gè)數(shù) 402
13.4.3 經(jīng)典降維模型主成分分析 404
13.5 奇異值分解 407
13.5.1 數(shù)學(xué)定義 407
13.5.2 截?cái)嗥娈愔捣纸?408
13.5.3 潛在語(yǔ)義分析 409
13.5.4 大型推薦系統(tǒng) 410
13.6 本章小結(jié) 413
13.6.1 要點(diǎn)回顧 413
13.6.2 常見(jiàn)面試問(wèn)題 413