本書主要圍繞AI系統(tǒng)的理論基礎與技術基礎知識展開,結合實例進行介紹,旨在讓讀者了解AI系統(tǒng)的來龍去脈,形成對AI系統(tǒng)的系統(tǒng)化與層次化的初步理解,掌握AI系統(tǒng)基本理論、技術、實際應用及研究方向,為后續(xù)從事具體的學習研究工作和項目開發(fā)工作奠定基礎。
本書首先介紹AI的歷史、現(xiàn)狀與發(fā)展及AI系統(tǒng)的基本知識,后分為AI硬件與體系結構、AI編譯與計算架構、AI推理系統(tǒng)與引擎、AI框架核心模塊四篇進行詳細介紹,涉及AI系統(tǒng)從底層原理到應用落地的全貌,反映了AI系統(tǒng)架構的前沿技術。
更多科學出版社服務,請掃碼獲取。
廣州大學(本科)、西安電子科技大學(碩士)、東南大學(博士)華為昇騰業(yè)務訓練總架構師、MinSpore架構師AI系統(tǒng)架構出版《深度學習原理與實踐》、《深度強化學習原理與實踐》等4本專著,為早年 AI 知識的普及作了一定的鋪墊作用。發(fā)表113篇算法專利,圍繞智能駕駛、情景感知、AI系統(tǒng)底層的編譯器、AI框架、上層應用算法構建了一系列的全包圍專利點進行了重點布局。上海交通大學企業(yè)導師
目錄
第1章 AI系統(tǒng)概述/1
1.1 AI歷史與現(xiàn)狀/1
1.2 AI發(fā)展驅動力/11
1.3 AI系統(tǒng)架構介紹/19
1.4 AI系統(tǒng)與AI算法關系/27
第一篇 AI硬件與體系結構
第2章 AI計算體系/37
2.1引言/37
2.2 AI計算模式/41
2.3關鍵設計指標/57
2.4核心計算之矩陣乘/63
2.5計算之比特位寬/67
第3章 AI芯片體系/72
3.1 CPU基礎/72
3.2 CPU指令集架構/81
3.3 CPU計算本質/94
3.4 CPU計算時延/99
3.5 GPU基礎/104
3.6 AI專用芯片基礎/123
第4章 GPU—以英偉達為例/130
4.1 引言/130
4.2 Tensor Core基本原理/154
4.3 Tensor Core架構演進/160
4.4 Tensor Core深度剖析/171
4.5分布式通信/179
4.6 NVLink原理剖析 /186
4.7 NVSwitch深度解析/194
第5章 TPU—以谷歌為例/202
5.1 引言/202
5.2 谷歌TPU v1脈動陣列/212
5.3 谷歌TPU v2訓練芯片/219
5.4 谷歌TPU v3 Pod服務器/228
5.5 谷歌TPU v4與光路交換/235
第6章 NPU—以昇騰為例/244
6.1 引言/244
6.2 昇騰AI處理器/251
6.3 昇騰AI核心單元/259
6.4 昇騰數(shù)據布局轉換/273
第7章 AI芯片思考與展望/279
7.1 GPU架構與CUDA關系/279
7.2 從GPU對AI芯片思考/285
7.3 AI芯片發(fā)展方向/291
7.4 超異構計算/298
第二篇 AI編擇與計算架構
第8章 傳統(tǒng)編譯器/311
8.1 引言/311
8.2傳統(tǒng)編譯器介紹/318
8.3 GCC基本介紹與特征/324
8.4 LLVM架構設計和原理/329
8.5 LLVM IR基本概念/334
8.6 LLVM IR細節(jié)詳解/340
8.7 LLVM前端和優(yōu)化層/345
8.8 LLVM后端代碼生成/350
第9章 AI編譯器/356
9.1 引言/356
9.2 AI編譯器歷史階段/365
9.3 AI編譯器基本架構/371
9.4 AI編譯器挑戰(zhàn)與思考/378
第10章 前端優(yōu)化/388
10.1 引言/388
10.2 圖算IR/389
10.3 算子融合/393
10.4 布局轉換原理/400
10.5 內存分配算法/406
10.6 常量折疊原理/412
10.7 公共子表達式消除原理/415
10.8 死代碼消除/417
10.9 代數(shù)簡化/420
第11章 后端優(yōu)化/425
11.1 弓1言/425
11.2 計算與調度/428
11.3 算子手工優(yōu)化/434
11.4 算子循環(huán)優(yōu)化/440
11.5 指令和存儲優(yōu)化/447
11.6 Auto-Tuning 原理/452
第12章 計算架構/454
12.1 芯片的編程體系/454
12.2 SIMD & SIMT與芯片架構/456
12.3 SIMD & SIMT與編程關系/465
12.4 CUDA計算結構/470
第13章 CANN&Ascend C計算架構/475
13.1 昇騰異構計算架構CANN/475
13.2 CANN與算子/482
13.3 算子開發(fā)編程語言Ascend C/485
13.4 Ascend C語法擴展/492
13.5 Ascend C編程范式以向量為例/500
第三篇 AI推理系統(tǒng)與引擎
第14章 推理系統(tǒng)/511
14.1 引言/511
14.2 推理系統(tǒng)介紹/515
14.3 推理流程全景/523
14.4 推理系統(tǒng)架構/526
14.5 推理引擎架構/530
14.6 昇騰推理引擎MrndlE/549
14.7 昇騰計算語言AscendCL/552
第15章 模型小型化/561
15.1 推理參數(shù)了解/561
15.2 CNN模型小型化/563
15.3 Transformer模型小型化/579
第16章 模型輕量化/585
16.1 引言/585
16.2 量化基本原理/586
16.3 感知量化訓練/592
16.4 訓練后量化與部署/598
16.5 模型剪枝原理/604
16.6 知識蒸餾原理/611
第17章 模型轉換/619
17.1 引言/619
17.2 推理文件格式/626
17.3 自定義計算圖/634
17.4 模型轉換流程/643
第18章 計算圖優(yōu)化架構/647
18.1 引言/647
18.2 離線圖優(yōu)化技術/651
18.3 其他計算圖優(yōu)化/667
第19章 Kernel優(yōu)化/676
19.1 引言/676
19.2 卷積計算原理/680
19.3 Im2Col算法/690
19.4 Wmograd算法/698
19.5 QNNPACK算法/705
19.6推理內存布局/715
第四篇 AI框架核心模塊
第20章 AI框架基礎/721
20.1 引言/721
20.2 AI框架作用/721
20.3 AI框架之爭/727
20.4 AI框架的編程范式/735
20.5 昇思MrndSpore關鍵特性/741
第21章 自動微分/753
21.1 引言/753
21.2 什么是微分/753
21.3 微分計算模式/760
21.4 微分實現(xiàn)方式/768
21.5 動手實現(xiàn)自動微分/775
21.6 動手實現(xiàn)PyTorch微分/778
21.7 自動微分的挑戰(zhàn)和未來/784
第22章 計算圖/790
22.1 引言/790
22.2計算圖基本原理/791
22.3計算圖與自動微分/798
22.4計算圖的調度與執(zhí)行/804
22.5計算圖的控制流實現(xiàn)/811
22.6動態(tài)圖與靜態(tài)圖轉換/818
第23章 分布式并行/823
23.1 引言/823
23.2數(shù)據并行/823
23.3數(shù)據并行進階/837
23.4張量并行/849
23.5流水并行/855
23.6混合并行/858
23.7 昇思 MindSpore并行/860
參考文獻/867
索引/883
彩圖