關(guān)于我們
書單推薦
新書推薦
|
基于TensorFlow的深度學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)、計(jì)算機(jī)視覺和NLP的理論與實(shí)踐 [美]馬格努斯·埃克曼 周翊民 譯
本書系統(tǒng)地講解了深度學(xué)習(xí)技術(shù),闡明核心概念和實(shí)踐編程技術(shù),是開發(fā)者、數(shù)據(jù)科學(xué)家、分析師,以及之前沒有機(jī)器學(xué)習(xí)或統(tǒng)計(jì)經(jīng)驗(yàn)的人員人員的理想選擇。
本書介紹了深度神經(jīng)網(wǎng)絡(luò)的人工神經(jīng)元和全連接、卷積和循環(huán)層等基本構(gòu)建模塊,展示了如何使用它們來(lái)構(gòu)建先進(jìn)的架構(gòu)。書中還講解了如何使用這些概念構(gòu)建計(jì)算機(jī)視覺和自然語(yǔ)言處理(NLP)網(wǎng)絡(luò),包括Mask R-CNN、GPT和BERT。此外,書中還描述了自然語(yǔ)言翻譯器和能根據(jù)圖像內(nèi)容生成自然語(yǔ)言系統(tǒng)的原理。
本書使用TensorFlow和Keras提供了簡(jiǎn)潔、注釋良好的代碼示例,還提供了相應(yīng)的PyTorch示例,涵蓋了工業(yè)和學(xué)術(shù)界關(guān)于深度學(xué)習(xí)的兩個(gè)主要Python庫(kù)。最后,介紹了神經(jīng)結(jié)構(gòu)搜索(NAS),并探索了重要的倫理問題,為進(jìn)一步學(xué)習(xí)深度學(xué)習(xí)提供了資源。
Preface
前 言 深度學(xué)習(xí)(DL)是一個(gè)快速發(fā)展的領(lǐng)域,它在圖像分類、生成圖像的自然語(yǔ)言描述、自然語(yǔ)言翻譯、語(yǔ)音到文本和文本到語(yǔ)音的轉(zhuǎn)換等方面取得了驚人的成果。本書詳細(xì)闡述了深度學(xué)習(xí)這個(gè)主題,并提供了實(shí)踐經(jīng)驗(yàn),為進(jìn)一步學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)。 在本書中,使用綠色文本框來(lái)突出特別重要和關(guān)鍵的概念。首先指出的是,深度學(xué)習(xí)這個(gè)概念很重要。 我們首先學(xué)習(xí)感知器和其他人工神經(jīng)元(深度神經(jīng)網(wǎng)絡(luò)的基本構(gòu)件),以及全連接的前饋網(wǎng)絡(luò)和卷積網(wǎng)絡(luò),并應(yīng)用這些網(wǎng)絡(luò)來(lái)解決實(shí)際問題,例如基于大量數(shù)據(jù)預(yù)測(cè)房?jī)r(jià)或識(shí)別圖像屬于哪個(gè)類別,圖P-1是CIFAR-10圖像數(shù)據(jù)集的分類和示例,我們將在第7章中對(duì)該數(shù)據(jù)集進(jìn)行詳細(xì)研究。 圖P-1 CIFAR-10圖像數(shù)據(jù)集的分類和示例(Krizhevsky,2009) (見彩插) (圖片來(lái)源:https://www.cs.toronto.edu/ kriz/cifar.html) 我們接著學(xué)習(xí)如何使用編碼來(lái)表示自然語(yǔ)言中的單詞,這種編碼技術(shù)可以捕捉被編碼的單詞的語(yǔ)義詞。然后,使用這些編碼與循環(huán)神經(jīng)網(wǎng)絡(luò)一起創(chuàng)建自然語(yǔ)言翻譯器,如圖P-2所示。這個(gè)翻譯器可以自動(dòng)將簡(jiǎn)單句子從英語(yǔ)翻譯為法語(yǔ)或其他類似語(yǔ)言。 最后,我們將學(xué)習(xí)如何構(gòu)建一個(gè)結(jié)合圖像和語(yǔ)言處理的圖像字幕網(wǎng)絡(luò)。該網(wǎng)絡(luò)以圖像為輸入,可自動(dòng)生成圖像的自然語(yǔ)言描述。 在本書的學(xué)習(xí)進(jìn)程中,還將討論許多其他細(xì)節(jié)。此外,本書將一些其他重要主題作為附錄,供讀者深入學(xué)習(xí)。 圖P-2 輸入為英語(yǔ)而輸出為對(duì)應(yīng)法語(yǔ)的神經(jīng)網(wǎng)絡(luò)翻譯器 認(rèn)識(shí)深度學(xué)習(xí) DL可解釋為一類機(jī)器學(xué)習(xí)算法,使用多層計(jì)算單元,其中每一層學(xué)習(xí)自身的輸入數(shù)據(jù)表示,這些表示由后面的層以分層方式組合。這個(gè)定義有些抽象,特別是考慮到還沒有描述層和計(jì)算單元的概念,但在前幾章將提供更多具體實(shí)例來(lái)闡明這個(gè)定義。 深度神經(jīng)網(wǎng)絡(luò)(DNN)是DL的基本組成部分,它是受生物神經(jīng)元啟發(fā)而產(chǎn)生的。關(guān)于DL技術(shù)究竟能在多大程度上模擬大腦活動(dòng)一直存在爭(zhēng)論,其中有人認(rèn)為使用神經(jīng)網(wǎng)絡(luò)這個(gè)術(shù)語(yǔ)會(huì)讓人覺得它比實(shí)際情況更先進(jìn)。因此,他們建議使用“單元”而不是“人工神經(jīng)元”,使用“網(wǎng)絡(luò)”而不是“神經(jīng)網(wǎng)絡(luò)”。毫無(wú)疑問,DL和更廣泛的 AI領(lǐng)域已經(jīng)被主流媒體大肆炒作。在寫作本書時(shí),很容易產(chǎn)生這樣的感覺,即我們將創(chuàng)造出像人類一樣思考的機(jī)器,盡管最近表達(dá)懷疑的文章更為常見。讀了本書后,你會(huì)對(duì)DL可以解決哪些問題有更準(zhǔn)確的了解。在本書中,我們會(huì)自由選擇使用“神經(jīng)網(wǎng)絡(luò)”和“神經(jīng)元”這些詞,不過(guò)讀者也應(yīng)當(dāng)注意到,本書所介紹的算法更多地與機(jī)器能力,而不是人類大腦的實(shí)際工作方式有關(guān)。圖P-3所示為人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)之間的關(guān)系。不同橢圓的面積大小并不代表該類相對(duì)于另一類的類別范疇。 在本書中,斜體部分的內(nèi)容是陳述一些題外話或主觀觀點(diǎn)。如果你認(rèn)為它們對(duì)你的閱讀沒有價(jià)值,可以完全忽略。 DNN是DL的子集。 DL是ML的子集,而ML是AI的子集。 本書不重點(diǎn)討論DL的確切定義及其邊界,也不深入討論ML或AI其他領(lǐng)域的細(xì)節(jié),而是重點(diǎn)闡述DNN及其應(yīng)用。 圖P-3 人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)之間的關(guān)系 深度神經(jīng)網(wǎng)絡(luò)簡(jiǎn)史 上述內(nèi)容只是粗略地提到網(wǎng)絡(luò)但沒有描述什么是網(wǎng)絡(luò)。本書前幾章詳細(xì)討論了網(wǎng)絡(luò)架構(gòu),這里只把網(wǎng)絡(luò)視為一個(gè)有輸入和輸出的不透明系統(tǒng)就足夠了。使用模型可將信息(圖像或文本序列)作為網(wǎng)絡(luò)輸入,然后網(wǎng)絡(luò)會(huì)輸出相應(yīng)信息,比如對(duì)圖像的解釋(見圖P-4),或不同語(yǔ)言的自然語(yǔ)言翻譯(見圖P-2)。 圖P-4 深度神經(jīng)網(wǎng)絡(luò)作為一種不透明系統(tǒng),將圖像作為輸入,然后輸出圖像中的對(duì)象類型 如前所述,神經(jīng)網(wǎng)絡(luò)的核心部分是人工神經(jīng)元。第一個(gè)人工神經(jīng)元模型在1943年問世(McCulloch and Pitts,1943),掀啟了第一次神經(jīng)網(wǎng)絡(luò)研究的浪潮。隨后,在1957年Rosenblatt感知器出現(xiàn)(Rosenblatt,1958)。感知器的重要貢獻(xiàn)是自動(dòng)學(xué)習(xí)算法,即系統(tǒng)自動(dòng)學(xué)習(xí)所期望的行為。本書第1章詳細(xì)介紹了感知器。感知器有其局限性,盡管通過(guò)將多個(gè)感知器組合成多層網(wǎng)絡(luò)可以打破這些局限性,但最初的學(xué)習(xí)算法并沒有擴(kuò)展到多層網(wǎng)絡(luò)。根據(jù)普遍說(shuō)法,這是導(dǎo)致神經(jīng)網(wǎng)絡(luò)研究開始衰落的原因。人工智能進(jìn)入了第一個(gè)寒冬,據(jù)說(shuō)是因Minsky和Papert在他們于1969年所著一書中提出缺失多層網(wǎng)絡(luò)學(xué)習(xí)算法是一個(gè)嚴(yán)重問題引起的。但這個(gè)話題和說(shuō)法頗具爭(zhēng)議性。Olazaran研究了Minsky和Papert的陳述是否被歪曲(Olazaran,1996)。此外,Schmidhuber(2015)指出,早在Minsky和Papert的書出版4年之前,文獻(xiàn)(Ivakhnenko和Lapa,1965)中就提出了一種用于多層網(wǎng)絡(luò)的學(xué)習(xí) 算法。 第二次神經(jīng)網(wǎng)絡(luò)研究浪潮始于20世紀(jì)80年代,很大程度上受到了(Rumelhart et al.,1986)文獻(xiàn)的影響(該文獻(xiàn)描述了用于多層網(wǎng)絡(luò)自動(dòng)訓(xùn)練的反向傳播算法)。Rumelhart和他的同事證明,這種算法可以用來(lái)突破感知器的局限性,解決Minsky和Papert提出的問題。Rumelhart和他的同事在神經(jīng)網(wǎng)絡(luò)的背景下推廣了反向傳播算法,但這并不是該算法在文獻(xiàn)中首次出現(xiàn)。早在1970年該算法就被用于類似問題領(lǐng)域(Linnainmaa,1970)。1981年,Werbos(1981)又在神經(jīng)網(wǎng)絡(luò)背景下對(duì)該算法進(jìn)行了描述。
周翊民
中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院研究 員,博士生導(dǎo)師。2008 年在英國(guó)牛津大學(xué) 工程科學(xué)系獲得博士學(xué)位,曾在英國(guó)拉夫 堡大學(xué)電子電氣工程系從事博士后研究工 作。主要從事非線性控制、人工智能、模 糊神經(jīng)網(wǎng)絡(luò)、機(jī)器人、無(wú)人機(jī)控制系統(tǒng)、 智能電網(wǎng)等相關(guān)技術(shù)的研究。以項(xiàng)目負(fù)責(zé) 人身份申請(qǐng)并獲批國(guó)家自然基金、科技部 重點(diǎn)研發(fā)計(jì)劃、廣東省科技專項(xiàng)、深圳市 基礎(chǔ)重點(diǎn)研究項(xiàng)目等多個(gè)項(xiàng)目。發(fā)表SCI/ EI文章100余篇,申請(qǐng)專利50余項(xiàng),出版 英文專著2 部,譯著1部。
CONTENTS
目 錄 推薦序一 推薦序二 前言 第1章 Rosenblatt 感知器 1 1.1 雙輸入感知器示例 3 1.2 感知器學(xué)習(xí)算法 4 1.3 感知器的局限性 9 1.4 組合多個(gè)感知器 11 1.5 感知器的幾何解釋 13 1.6 理解偏差項(xiàng) 14 第2章 基于梯度的學(xué)習(xí) 16 2.1 感知器學(xué)習(xí)算法的直觀解釋 16 2.2 用梯度下降法解決學(xué)習(xí)問題 18 2.3 網(wǎng)絡(luò)中的常量與變量 20 2.4 感知器學(xué)習(xí)算法的解析 20 2.5 感知器學(xué)習(xí)算法的幾何描述 22 2.6 重新審視不同類型的感知器 22 2.7 使用感知器進(jìn)行模式識(shí)別 24 第3章 Sigmoid神經(jīng)元與反向 傳播 26 3.1 改進(jìn)的神經(jīng)元實(shí)現(xiàn)多層網(wǎng)絡(luò)的 梯度下降 26 3.2 激活函數(shù)的選擇 30 3.3 復(fù)合函數(shù)和鏈?zhǔn)椒▌t 30 3.4 利用反向傳播計(jì)算梯度 31 3.4.1 前向傳播階段 37 3.4.2 后向傳播階段 37 3.4.3 權(quán)重調(diào)整 38 3.5 每層具有多個(gè)神經(jīng)元的反向 傳播 39 3.6 編程示例:學(xué)習(xí)XOR函數(shù) 40 3.7 網(wǎng)絡(luò)結(jié)構(gòu) 43 第4章 用于多分類的全連接網(wǎng)絡(luò) 45 4.1 訓(xùn)練網(wǎng)絡(luò)時(shí)所用數(shù)據(jù)集簡(jiǎn)介 45 4.1.1 探索數(shù)據(jù)集 46 4.1.2 數(shù)據(jù)集中的人為偏見 48 4.1.3 訓(xùn)練集、測(cè)試集和泛化 49 4.1.4 超參數(shù)調(diào)優(yōu)和測(cè)試集信息 泄漏 50 4.2 訓(xùn)練與推理 51 4.3 擴(kuò)展網(wǎng)絡(luò)和學(xué)習(xí)算法以進(jìn)行 多分類 51 4.4 用于數(shù)字分類的網(wǎng)絡(luò) 52 4.5 多分類的損失函數(shù) 52 4.6 編程示例:手寫數(shù)字分類 53 4.7 小批量梯度下降 60 第5章 走向DL:框架和網(wǎng)絡(luò) 調(diào)整 61 5.1 編程示例:轉(zhuǎn)移到DL框架 61 5.2 飽和神經(jīng)元和梯度消失問題 65 5.3 避免神經(jīng)元飽和的初始化和歸一化 技術(shù) 66 5.3.1 權(quán)重初始化 67 5.3.2 輸入標(biāo)準(zhǔn)化 68 5.3.3 批歸一化 68 5.4 用于緩解飽和輸出神經(jīng)元影響的 交叉熵?fù)p失函數(shù) 69 5.5 使用不同激活函數(shù)以避免隱藏層 中梯度消失問題 73 5.6 提高學(xué)習(xí)的梯度下降法中的 變量 76 5.7 實(shí)驗(yàn):調(diào)整網(wǎng)絡(luò)和學(xué)習(xí)參數(shù) 78 5.8 超參數(shù)調(diào)優(yōu)和交叉驗(yàn)證 80 5.8.1 使用驗(yàn)證集來(lái)避免過(guò) 擬合 81 5.8.2 交叉驗(yàn)證以改善訓(xùn)練數(shù)據(jù) 的使用 81 第6章 全連接網(wǎng)絡(luò)在回歸中的 應(yīng)用 83 6.1 輸出單元 83 6.1.1 二元分類的邏輯單元 84 6.1.2 用于多分類的Softmax 單元 84 6.1.3 線性回歸單元 86 6.2 波士頓住房數(shù)據(jù)集 87 6.3 編程示例:用DNN預(yù)測(cè)房?jī)r(jià) 88 6.4 用正則化改進(jìn)泛化 91 6.5 實(shí)驗(yàn):更深層次和正則化的房?jī)r(jià) 預(yù)測(cè)模型 93 第7章 卷積神經(jīng)網(wǎng)絡(luò)在圖像分類中 的應(yīng)用 94 7.1 CIFAR-10數(shù)據(jù)集 95 7.2 卷積層的特征和構(gòu)建模塊 97 7.3 將特征映射組合成一個(gè)卷積層 99 7.4 將卷積層和全連接層結(jié)合成一個(gè) 網(wǎng)絡(luò) 100 7.5 稀疏連接和權(quán)重共享的影響 102 7.6 編程示例:用卷積網(wǎng)絡(luò)進(jìn)行圖像 分類 105 第8章 深度卷積神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練 模型 113 8.1 VGGNet 113 8.2 GoogLeNet 116 8.3 ResNet 119 8.4 編程示例:使用預(yù)先訓(xùn)練的ResNet實(shí)現(xiàn) 124 8.5 遷移學(xué)習(xí) 126 8.6 CNN和池化的反向傳播 128 8.7 正則化技術(shù)的數(shù)據(jù)增強(qiáng) 128 8.8 CNN的局限性 129 8.9 用深度可分離卷積進(jìn)行參數(shù) 約簡(jiǎn) 130 8.10 用高效網(wǎng)絡(luò)實(shí)現(xiàn)正確的網(wǎng)絡(luò) 設(shè)計(jì)平衡 131 第9章 用循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)時(shí)間 序列 132 9.1 前饋網(wǎng)絡(luò)的局限性 134 9.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 135 9.3 循環(huán)層的數(shù)學(xué)表示 135 9.4 將圖層組合成一個(gè)RNN 136 9.5 RNN的另一視圖并按時(shí)間展開 137 9.6 基于時(shí)間的反向傳播 138 9.7 編程示例:預(yù)測(cè)圖書銷量 140 9.7.1 標(biāo)準(zhǔn)化數(shù)據(jù)并創(chuàng)建訓(xùn)練 示例 144 9.7.2 創(chuàng)建一個(gè)簡(jiǎn)單的RNN 145 9.7.3 與無(wú)循環(huán)網(wǎng)絡(luò)的比較 148 9.7.4 將示例擴(kuò)展為多輸入 變量 149 9.8 RNN的數(shù)據(jù)集注意事項(xiàng) 149 第10章 長(zhǎng)短期記憶 151 10.1 保持梯度健康 151 10.2 LSTM介紹 154 10.3 LSTM激活函數(shù) 157 10.4 創(chuàng)建LSTM單元構(gòu)成的網(wǎng)絡(luò) 157 10.5 LSTM的其他理解 158 10.6 相關(guān)話題:高速神經(jīng)網(wǎng)絡(luò)和跳 連接 159 第11章 使用LSTM和集束搜索 自動(dòng)補(bǔ)全文本 161 11.1 文本編碼 161 11.2 長(zhǎng)期預(yù)測(cè)和自回歸模型 162 11.3 集束搜索 163 11.4 編程示例:使用LSTM實(shí)現(xiàn) 文本自動(dòng)補(bǔ)全 164 11.5 雙向RNN 169 11.6 輸入和輸出序列的不同組合 170 第12章 神經(jīng)語(yǔ)言模型和詞嵌入 172 12.1 語(yǔ)言模型介紹及其用例簡(jiǎn)介 172 12.2 不同語(yǔ)言模型的例子 174 12.2.1 n-gram模型 174 12.2.2 skip-gram模型 176 12.2.3 神經(jīng)語(yǔ)言模型 176 12.3 詞嵌入的好處及對(duì)其工作方式 的探究 178 12.4 基于神經(jīng)語(yǔ)言模型創(chuàng)建詞 嵌入 179 12.5 編程示例:神經(jīng)語(yǔ)言模型和產(chǎn)生的嵌入 182 12.6 King–Man + Woman! = Queen 188 12.7 King–Man+Woman != Queen 190 12.8 語(yǔ)言模型、詞嵌入和人類 偏見 190 12.9 相關(guān)話題:文本情感分析 191 12.9.1 詞袋法和N元詞袋法 192 12.9.2 相似性度量 194 12.9.3 組合BoW和深度學(xué)習(xí) 195 第13章 Word2vec和GloVe的 詞嵌入 197 13.1 使用Word2vec在沒有語(yǔ)言模型的情況下創(chuàng)建詞嵌入 197 13.1.1 與語(yǔ)言模型相比降低計(jì)算復(fù)雜性 198 13.1.2 連續(xù)詞袋模型 199 13.1.3 連續(xù)skip-gram模型 199 13.1.4 進(jìn)一步降低計(jì)算復(fù)雜度的優(yōu)化連續(xù)skip-gram模型 200 13.2 關(guān)于Word2vec的其他思考 201 13.3 矩陣形式的Word2vec 202 13.4 Word2vec總結(jié) 203 13.5 編程示例:探索GloVe嵌入的 屬性 204 第14章 序列到序列網(wǎng)絡(luò)和自然 語(yǔ)言翻譯 209 14.1 用于序列到序列學(xué)習(xí)的編-解碼器模型 210 14.2 Keras函數(shù)式API簡(jiǎn)介 212 14.3 編程示例:神經(jīng)機(jī)器翻譯 214 14.4 實(shí)驗(yàn)結(jié)果 226 14.5 中間表示的性質(zhì) 227 第15章 注意力機(jī)制和Transformer 架構(gòu) 229 15.1 注意力機(jī)制的基本原理 229 15.2 序列到序列網(wǎng)絡(luò)中的注意力 機(jī)制 230 15.2.1 計(jì)算對(duì)齊向量 234 15.2.2 對(duì)齊向量上的數(shù)學(xué)符號(hào)與 變量 235 15.2.3 關(guān)注更深層的網(wǎng)絡(luò) 236 15.2.4 其他注意事項(xiàng) 237 15.3 循環(huán)網(wǎng)絡(luò)的替代方法 238 15.4 自注意力 239 15.5 多頭注意力 240 15.6 Transformer架構(gòu) 241 第16章 用于圖像字幕的一對(duì)多 網(wǎng)絡(luò) 245 16.1 用注意力擴(kuò)展圖像字幕網(wǎng)絡(luò) 247 16.2 編程示例:基于注意力的圖像 字幕 248 第17章 其他主題 264 17.1 自編碼器 264 17.1.1 自編碼器的使用案例 265 17.1.2 自編碼器的其他方面 266 17.1.3 編程示例:用于異常值 檢測(cè)的自編碼器 267 17.2 多模態(tài)學(xué)習(xí) 272 17.2.1 多模態(tài)學(xué)習(xí)的分類 272 17.2.2 編程示例:使用多模態(tài) 輸入數(shù)據(jù)進(jìn)行分類 275 17.3 多任務(wù)學(xué)習(xí) 279 17.3.1 為什么要執(zhí)行多任務(wù) 學(xué)習(xí) 279 17.3.2 如何實(shí)現(xiàn)多任務(wù)學(xué)習(xí) 279 17.3.3 其他方向和變體的基本 實(shí)現(xiàn) 280 17.3.4 編程示例:多分類和用單一網(wǎng)絡(luò)回答問題 281 17.4 網(wǎng)絡(luò)調(diào)優(yōu)過(guò)程 284 17.5 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索 287 17.5.1 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的關(guān)鍵 組成部分 287 17.5.2 編程示例:搜索一個(gè)用于CIFAR-10分類的架構(gòu) 290 17.5.3 神經(jīng)架構(gòu)搜索的內(nèi)在 含義 300 第18章 總結(jié)和未來(lái)展望 301 18.1 你現(xiàn)在應(yīng)該知道的事情 301 18.2 倫理AI和數(shù)據(jù)倫理 302 18.2.1 需要注意的問題 303 18.2.2 問題清單 304 18.3 你還不知道的事情 305 18.3.1 強(qiáng)化學(xué)習(xí) 305 18.3.2 變分自編碼器和生成 對(duì)抗網(wǎng)絡(luò) 305 18.3.3 神經(jīng)風(fēng)格遷移 306 18.3.4 推薦系統(tǒng) 307 18.3.5 語(yǔ)音模型 307 18.4 未來(lái)展望 307 附錄A 線性回歸和線性分類 309 A.1 機(jī)器學(xué)習(xí)算法:線性回歸 309 A.1.1 一元線性回歸 309 A.1.2 多元線性回歸 310 A.1.3 用線性函數(shù)建模曲率 311 A.2 計(jì)算線性回歸系數(shù) 312 A.3 邏輯回歸分類 313 A.4 用線性分類器對(duì)XOR進(jìn)行 分類 314 A.5 支持向量機(jī)分類 317 A.6 二元分類器的評(píng)價(jià)指標(biāo) 318 附錄B 目標(biāo)檢測(cè)和分割 321 B.1 目標(biāo)檢測(cè) 321 B.1.1 R-CNN 322 B.1.2 Fast R-CNN 324 B.1.3 Faster R-CNN 325 B.2 語(yǔ)義分割 327 B.2.1 上采樣技術(shù) 328 B.2.2 反卷積網(wǎng)絡(luò) 332 B.2.3 U-Net 333 B.3 Mask R-CNN 實(shí)例分割 334 附錄C Word2vec和GloVe之外的詞嵌入 337 C.1 Wordpieces 337 C.2 FastText 339 C.3 基于字符的方法 339 C.4 ELMo 343 C.5 相關(guān)工作 345 附錄D GPT、BERT和 RoBERTa 346 D.1 GPT 346 D.2 BERT 349 D.2.1 掩碼語(yǔ)言模型任務(wù) 349 D.2.2 下一句預(yù)測(cè)任務(wù) 350 D.2.3 BERT的輸入輸出表示 351 D.2.4 BERT在NLP任務(wù)中的 應(yīng)用 352 D.3 RoBERTa 352 D.4 GPT和BERT的前期工作 354 D.5 基于Transformer的其他模型 354 附錄E Newton-Raphson法與梯度 下降法 356 E.1 Newton-Raphson求根法 356 E.2 Newton-Raphson法與梯度下降法 的關(guān)系 358 附錄F 數(shù)字分類網(wǎng)絡(luò)的矩陣實(shí)現(xiàn) 359 F.1 單一矩陣 359 F.2 小批量實(shí)現(xiàn) 361 附錄G 卷積層與數(shù)學(xué)卷積的關(guān)系 365 附錄H 門控循環(huán)單元 369 H.1 GRU的替代實(shí)現(xiàn) 371 H.2 基于GRU的網(wǎng)絡(luò) 371 附錄I 搭建開發(fā)環(huán)境 374 I.1 Python 374 I.2 編程環(huán)境 375 I.2.1 Jupyter Notebook 375 I.2.2 使用集成開發(fā)環(huán)境 375 I.3 編程示例 376 I.4 數(shù)據(jù)集 376 I.4.1 MNIST數(shù)據(jù)集 377 I.4.2 來(lái)自美國(guó)人口普查局的 書店銷售數(shù)據(jù) 377 I.4.3 古騰堡工程的FRANKENSTEIN文本 378 I.4.4 GloVe詞嵌入 378 I.4.5 ANKI雙語(yǔ)句子對(duì) 378 I.4.6 COCO數(shù)據(jù)集 378 I.5 安裝深度學(xué)習(xí)框架 378 I.5.1 系統(tǒng)安裝 378 I.5.2 虛擬環(huán)境安裝 379 I.5.3 GPU加速 379 I.5.4 Docker容器 379 I.5.5 使用云服務(wù) 380 I.6 TensorFlow具體注意事項(xiàng) 380 I.7 PyTorch與TensorFlow的關(guān)鍵 區(qū)別 380 I.7.1 需要編寫我們自己的擬合/ 訓(xùn)練函數(shù) 381 I.7.2 NumPy和PyTorch之間的 數(shù)據(jù)顯式移動(dòng) 381 I.7.3 CPU和GPU之間的數(shù)據(jù) 顯式傳輸 382 I.7.4 明確區(qū)分訓(xùn)練和推理 382 I.7.5 順序式API與函數(shù)式 API 382 I.7.6 缺乏編譯功能 383 I.7.7 循環(huán)層和狀態(tài)處理 383 I.7
你還可能感興趣
我要評(píng)論
|