人工智能(AI),尤其是生成式語(yǔ)言模型和生成式人工智能(AIGC)模型,正以驚人的速度改變著我們的世界。駕馭這股潮流的關(guān)鍵,莫過于探究自然語(yǔ)言處理(NLP)技術(shù)的深?yuàn)W秘境。本書將帶領(lǐng)讀者踏上一段扣人心弦的探索之旅,讓其親身感受,并動(dòng)手搭建語(yǔ)言模型。本書主要內(nèi)容包括N-Gram,詞袋模型(BoW),Word2Vec(W2V),神經(jīng)概率語(yǔ)言模型(NPLM),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),Seq2Seq(S2S),注意力機(jī)制,Transformer,從初代GPT到ChatGPT再到GPT-4等一系列突破性技術(shù)的誕生與演進(jìn)。
本書將以生動(dòng)活潑的筆觸,將枯燥的技術(shù)細(xì)節(jié)化作輕松幽默的故事和繽紛多彩的圖畫,引領(lǐng)讀者穿梭于不同技術(shù)的時(shí)空,見證自然語(yǔ)言處理技術(shù)的傳承、演進(jìn)與蛻變。在這場(chǎng)不斷攀登技術(shù)新峰的奇妙之旅中,讀者不僅能深入理解自然語(yǔ)言處理技術(shù)的核心原理,還能自己動(dòng)手,從零開始搭建起一個(gè)又一個(gè)語(yǔ)言模型。
無(wú)論你是在校學(xué)生還是人工智能從業(yè)者,這本書都將成為一盞明燈,照亮你探索人工智能無(wú)限奧秘的道路。
1、結(jié)構(gòu)清晰,全面解讀N-Gram至GPT-4等突破性技術(shù),帶讀者輕松讀懂NLP發(fā)展脈絡(luò),掌握AI核心,開啟未來(lái)之旅!
2、書中含有多個(gè)插圖及結(jié)構(gòu)圖,以生動(dòng)的筆觸、繽紛的圖畫,讓技術(shù)細(xì)節(jié)變得輕松愉快,讓讀者能夠輕松讀懂知識(shí),有趣,又有料!
3、配有豐富學(xué)習(xí)資料,提供源代碼,帶讀者動(dòng)手實(shí)操,搭建大模型,成為語(yǔ)言模型構(gòu)建達(dá)人。
黃佳,筆名咖哥,新加坡科技研究局人工智能研究員。主攻方向?yàn)?NLP 大模型的研發(fā)與應(yīng)用、持續(xù)學(xué)習(xí)、AI in FinTech。黃佳深耕人工智能領(lǐng)域多年,積累了豐富的科研項(xiàng)目和政府、銀行、能源、醫(yī)療等領(lǐng)域 AI 項(xiàng)目落地實(shí)戰(zhàn)經(jīng)驗(yàn),目前正與 PlatoX.AI 展開富有前景的技術(shù)合作。曾著有《零基礎(chǔ)學(xué)機(jī)器學(xué)習(xí)》《數(shù)據(jù)分析咖哥十話》等多部熱銷書。同時(shí),在極客時(shí)間開設(shè)專欄《零基礎(chǔ)實(shí)戰(zhàn)機(jī)器學(xué)習(xí)》《LangChain 實(shí)戰(zhàn)課》,在深藍(lán)學(xué)院開設(shè)視頻課程“生成式預(yù)訓(xùn)練語(yǔ)言模型:理論與實(shí)戰(zhàn)”。
目 錄
序章 看似尋常最奇崛,成如容易卻艱辛 001
GPT-4:點(diǎn)亮人工通用智能的火花 002
人工智能演進(jìn)之路:神經(jīng)網(wǎng)絡(luò)兩落三起 004
現(xiàn)代自然語(yǔ)言處理:從規(guī)則到統(tǒng)計(jì) 007
何為語(yǔ)言?信息又如何傳播? 008
NLP是人類和計(jì)算機(jī)溝通的橋梁 009
NLP技術(shù)的演進(jìn)史 010
大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型:BERT與GPT爭(zhēng)鋒 012
語(yǔ)言模型的誕生和進(jìn)化 012
統(tǒng)計(jì)語(yǔ)言模型的發(fā)展歷程 014
基于Transformer架構(gòu)的預(yù)訓(xùn)練模型 016
“預(yù)訓(xùn)練+微調(diào)大模型”的模式 018
以提示/指令模式直接使用大模型 019
從初代GPT到ChatGPT,再到GPT-4 021
GPT作為生成式模型的天然優(yōu)勢(shì) 022
ChatGPT背后的推手——OpenAI 023
從初代GPT到ChatGPT,再到GPT-4的進(jìn)化史 024
第 1課 高樓萬(wàn)丈平地起:語(yǔ)言模型的雛形N-Gram和簡(jiǎn)單文本表示Bag-of-Words 026
1.1 N-Gram模型 026
1.2 “詞”是什么,如何“分詞” 030
1.3 創(chuàng)建一個(gè)Bigram字符預(yù)測(cè)模型 032
1.4 詞袋模型 036
1.5 用詞袋模型計(jì)算文本相似度 037
小結(jié) 042
思考 043
第 2課 問君文本何所似: 詞的向量表示W(wǎng)ord2Vec和Embedding 044
2.1 詞向量 ≈ 詞嵌入 045
2.2 Word2Vec:CBOW模型和Skip-Gram模型 047
2.3 Skip-Gram模型的代碼實(shí)現(xiàn) 050
2.4 CBOW模型的代碼實(shí)現(xiàn) 061
2.5 通過nn.Embedding來(lái)實(shí)現(xiàn)詞嵌入 063
小結(jié) 067
思考 068
第3課 山重水復(fù)疑無(wú)路:神經(jīng)概率語(yǔ)言模型和循環(huán)神經(jīng)網(wǎng)絡(luò) 069
3.1 NPLM的起源 070
3.2 NPLM的實(shí)現(xiàn) 072
3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 079
3.4 循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn) 082
小結(jié) 086
思考 087
第4課 柳暗花明又一村:Seq2Seq編碼器-解碼器架構(gòu) 088
4.1 Seq2Seq架構(gòu) 089
4.2 構(gòu)建簡(jiǎn)單Seq2Seq架構(gòu) 092
小結(jié) 103
思考 103
第5課 見微知著開慧眼:引入注意力機(jī)制 104
5.1 點(diǎn)積注意力 105
5.2 縮放點(diǎn)積注意力 114
5.3 編碼器-解碼器注意力 116
5.4 注意力機(jī)制中的Q、K、V 122
5.5 自注意力 125
5.6 多頭自注意力 126
5.7 注意力掩碼 129
5.8 其他類型的注意力 131
小結(jié) 132
思考 132
第6課 層巒疊翠上青天:搭建GPT核心組件Transformer 133
6.1 Transformer架構(gòu)剖析 133
6.1.1 編碼器-解碼器架構(gòu) 135
6.1.2 各種注意力的應(yīng)用 135
6.1.3 編碼器的輸入和位置編碼 140
6.1.4 編碼器的內(nèi)部結(jié)構(gòu) 141
6.1.5 編碼器的輸出和編碼器-解碼器的連接 142
6.1.6 解碼器的輸入和位置編碼 143
6.1.7 解碼器的內(nèi)部結(jié)構(gòu) 145
6.1.8 解碼器的輸出和Transformer的輸出頭 146
6.2 Transformer代碼實(shí)現(xiàn) 148
6.3 完成翻譯任務(wù) 176
6.3.1 數(shù)據(jù)準(zhǔn)備 177
6.3.2 訓(xùn)練Transformer模型 179
6.3.3 測(cè)試Transformer模型 179
小結(jié) 181
思考 182
第7課 芳林新葉催陳葉:訓(xùn)練出你的簡(jiǎn)版生成式GPT 183
7.1 BERT與GPT爭(zhēng)鋒 184
7.2 GPT:生成式自回歸模型 188
7.3 構(gòu)建GPT模型并完成文本生成任務(wù) 191
7.3.1 搭建GPT模型(解碼器) 192
7.3.2 構(gòu)建文本生成任務(wù)的數(shù)據(jù)集 195
7.3.3 訓(xùn)練過程中的自回歸 198
7.3.4 文本生成中的自回歸(貪婪搜索) 200
7.4 使用WikiText2數(shù)據(jù)集訓(xùn)練Wiki-GPT模型 201
7.4.1 用WikiText2構(gòu)建Dataset和DataLoader 202
7.4.2 用DataLoader提供的數(shù)據(jù)進(jìn)行訓(xùn)練 206
7.4.3 用Evaluation Dataset評(píng)估訓(xùn)練過程 207
7.4.4 文本生成中的自回歸(集束搜索) 209
小結(jié) 212
思考 213
第8課 流水后波推前波:ChatGPT基于人類反饋的強(qiáng)化學(xué)習(xí) 214
8.1 從GPT到ChatGPT 215
8.2 在Wiki-GPT基礎(chǔ)上訓(xùn)練自己的簡(jiǎn)版ChatGPT 218
8.3 用Hugging Face預(yù)訓(xùn)練GPT微調(diào)ChatGPT 225
8.4 ChatGPT的RLHF實(shí)戰(zhàn) 233
8.4.1 強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí) 235
8.4.2 簡(jiǎn)單RLHF實(shí)戰(zhàn) 237
小結(jié) 243
思考 244
第9課 生生不息的循環(huán):使用強(qiáng)大的GPT-4 API 245
9.1 強(qiáng)大的OpenAI API 245
9.2 使用GPT-4 API 249
小結(jié) 251
思考 252
后 記 莫等閑,白了少年頭 253