本書(shū)以簡(jiǎn)單易懂的方式講解錯(cuò)綜復(fù)雜的并行體系結(jié)構(gòu),引導(dǎo)讀者了解并行計(jì)算機(jī)的工作原理,同時(shí)鼓勵(lì)讀者創(chuàng)新并實(shí)現(xiàn)自己的設(shè)計(jì)。全書(shū)共9章,內(nèi)容涵蓋底層電子工藝、微體系結(jié)構(gòu)、存儲(chǔ)結(jié)構(gòu)、互連網(wǎng)絡(luò)、多處理器、片上多處理器以及量化評(píng)估模型等。每一章都獨(dú)立且完備,既包含全面的基本概念,也涵蓋一些前沿研究點(diǎn)。本書(shū)適合作為高等院校計(jì)算機(jī)相關(guān)專業(yè)的教材,教師可根據(jù)課程及學(xué)生的層次選取不同的主題。同時(shí),對(duì)于工程師和研究者,本書(shū)也是不可多得的有益參考。
前 言Parallel Computer Organization and Design
在飛速發(fā)展的技術(shù)驅(qū)動(dòng)下,計(jì)算機(jī)體系結(jié)構(gòu)成為一個(gè)快速發(fā)展的領(lǐng)域。自20世紀(jì)90年代中期以來(lái),計(jì)算系統(tǒng)的速度和可靠性顯著增強(qiáng),這主要得益于技術(shù)的發(fā)展、更快的主頻和更深的流水線。這些改進(jìn)將高性能計(jì)算機(jī)帶給大眾,對(duì)社會(huì)產(chǎn)生了深遠(yuǎn)影響,促進(jìn)了網(wǎng)絡(luò)創(chuàng)新和人類活動(dòng)中生產(chǎn)力的大幅提升。我們所處的信息革命如同18世紀(jì)的工業(yè)革命,沒(méi)有人會(huì)否認(rèn)這次革命得益于技術(shù)的發(fā)展和微處理器體系結(jié)構(gòu)的發(fā)展。
但是,這樣快速的發(fā)展在未來(lái)可能無(wú)法維持下去,流水線深度已經(jīng)達(dá)到可用的極限,由于功耗限制,主頻也無(wú)法大幅突破。隨著技術(shù)的發(fā)展以及片上資源的變少,可靠性、復(fù)雜性和功耗成為計(jì)算機(jī)設(shè)計(jì)考慮的首要問(wèn)題,而不再是傳統(tǒng)上考慮的成本、面積和性能。這些趨勢(shì)促進(jìn)了并行處理和并行體系結(jié)構(gòu)的發(fā)展,因?yàn)檫@是解決當(dāng)前和未來(lái)可能面臨的體系結(jié)構(gòu)問(wèn)題的一條新的甚至可能是唯一的途徑。人們普遍認(rèn)為,我們需要利用并行處理才能使計(jì)算機(jī)領(lǐng)域呈現(xiàn)一片新的景象,而這個(gè)巨大的改變會(huì)產(chǎn)生深遠(yuǎn)的社會(huì)影響。因此,無(wú)論是工業(yè)界還是學(xué)術(shù)界,對(duì)并行體系結(jié)構(gòu)的興趣都已從工程上的好奇轉(zhuǎn)換為實(shí)在的任務(wù)。
隨著時(shí)間的流逝,各層次的并行化已經(jīng)成為現(xiàn)代計(jì)算機(jī)系統(tǒng)發(fā)展的瓶頸。多處理器結(jié)構(gòu)通過(guò)連接多個(gè)處理器提供了可擴(kuò)展的性能表現(xiàn),并已在高端系統(tǒng)領(lǐng)域稱霸數(shù)十載。多處理器開(kāi)發(fā)線程級(jí)并行(TLP),允許大型應(yīng)用擁有很多線程,如計(jì)算機(jī)圖形、科學(xué)/工程計(jì)算、數(shù)據(jù)庫(kù)管理以及通信服務(wù)。隨著體系結(jié)構(gòu)和編譯器技術(shù)的發(fā)展,微體系結(jié)構(gòu)則開(kāi)發(fā)指令級(jí)并行(ILP),并且獲得了良好的性能表現(xiàn)。內(nèi)存系統(tǒng)結(jié)構(gòu)為了跟上指令吞吐量的需求,通過(guò)允許同時(shí)訪問(wèn)大量數(shù)據(jù)并保證執(zhí)行的正確性而獲得了快速發(fā)展。互連和相關(guān)的協(xié)議也不斷改進(jìn),可以有效連接成百上千個(gè)處理器以及主頻為幾GHz的芯片。最近,微處理器的體系結(jié)構(gòu)集成了系統(tǒng)級(jí)并行結(jié)構(gòu)的范例,如向量處理和多處理器。在片上多處理器時(shí)代,每個(gè)微處理器都有多個(gè)核或CPU,每個(gè)核可以并發(fā)執(zhí)行多個(gè)線程。
并行體系結(jié)構(gòu)很難設(shè)計(jì)也很難編程,我們必須理解并行體系結(jié)構(gòu)帶來(lái)的問(wèn)題。本書(shū)針對(duì)最新的指令級(jí)并行和線程級(jí)并行技術(shù)給出了清晰易懂的講解,此外,還將可靠性和功耗作為設(shè)計(jì)目標(biāo)進(jìn)行講解。先前計(jì)算機(jī)體系結(jié)構(gòu)方面的教材主要將性能作為設(shè)計(jì)考慮的核心問(wèn)題。然而,現(xiàn)在盡管性能依舊是設(shè)計(jì)中的一個(gè)主要問(wèn)題,但是復(fù)雜性、功耗和可靠性等其他問(wèn)題也成為很重要的設(shè)計(jì)因素,這本關(guān)于并行計(jì)算機(jī)體系結(jié)構(gòu)的新書(shū)將會(huì)講解這些內(nèi)容。
本書(shū)的基本目的是解釋并行體系結(jié)構(gòu)如何工作以及分析當(dāng)今并行體系結(jié)構(gòu)的正確設(shè)計(jì),尤其是在技術(shù)受限的情況下。我們一般不會(huì)給出性能數(shù)據(jù),并且盡力回避系統(tǒng)的具體細(xì)節(jié)描述。我們鼓勵(lì)讀者閱讀發(fā)布在相關(guān)會(huì)議或期刊上的資料,詳細(xì)的參考書(shū)目和歷史發(fā)展回顧將會(huì)發(fā)布在網(wǎng)上。這會(huì)留下更多空間來(lái)講解設(shè)計(jì)的基本問(wèn)題,同時(shí)鼓勵(lì)學(xué)生思考、創(chuàng)新、實(shí)現(xiàn)自己的設(shè)計(jì)。為了達(dá)到實(shí)踐和創(chuàng)新的層次,全面了解現(xiàn)存的設(shè)計(jì)和實(shí)際問(wèn)題以及限制因素是必需的過(guò)程。本書(shū)利用豐富的例子來(lái)解釋概念,并且激發(fā)讀者自己思考。此外,本書(shū)還用兩章(第8章和第9章)的篇幅描述了一些工業(yè)界和學(xué)術(shù)界使用的系統(tǒng)和工具。
習(xí)題是學(xué)習(xí)的重要部分,每章之后的習(xí)題都采用問(wèn)答題形式,有些很長(zhǎng)很難的題目被分成了多個(gè)子問(wèn)題。習(xí)題的主要目的是給學(xué)生創(chuàng)造機(jī)會(huì)以對(duì)每章的概念有深刻的理解,并且培養(yǎng)學(xué)生的抽象思維能力。
本書(shū)適合對(duì)計(jì)算機(jī)體系結(jié)構(gòu)感興趣的計(jì)算機(jī)、電子工程和計(jì)算機(jī)科學(xué)專業(yè)的高年級(jí)本科生以及研究生閱讀,也適合計(jì)算機(jī)行業(yè)中的工程師參考。由于本書(shū)涵蓋了從微處理器到多處理器的大量知識(shí),既包括基本內(nèi)容也包含一些前沿的研究點(diǎn),因此在教學(xué)時(shí),可以通過(guò)選擇不同的章節(jié)來(lái)適應(yīng)不同的難度級(jí)別。學(xué)生可以學(xué)到硬件結(jié)構(gòu)和組成多處理器的各個(gè)部分,以及技術(shù)發(fā)展趨勢(shì)對(duì)于體系結(jié)構(gòu)的影響,還有與性能、功耗、可靠性和功能正確性相關(guān)的設(shè)計(jì)問(wèn)題等。本書(shū)可以用于研究生的基礎(chǔ)課程,也可以用于接下來(lái)的高階研究課程。本書(shū)的預(yù)修課程是計(jì)算機(jī)體系結(jié)構(gòu)及組成,涵蓋指令集和簡(jiǎn)單流水線處理器體系結(jié)構(gòu)等內(nèi)容。例如五級(jí)流水線及其控制相關(guān)的知識(shí),包括前遞、停頓和刷新等問(wèn)題,這些可以幫助學(xué)生理解微處理器章節(jié)中更復(fù)雜的硬件問(wèn)題。為了體現(xiàn)完整性,本書(shū)也包括了基本的指令集、流水線和存儲(chǔ)等相關(guān)概念。由于現(xiàn)代微體系結(jié)構(gòu)會(huì)影響多處理器的特征,因此了解其工作原理是必需的,此外還需要一定的編程知識(shí)。
內(nèi)容綱要本書(shū)整體內(nèi)容完備,同時(shí)我們也盡力保證每一章都是獨(dú)立且完備的,這可能會(huì)導(dǎo)致一些重復(fù)。本書(shū)共9章。第1章給出了計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域的基本觀點(diǎn),概述處理器、內(nèi)存、互連網(wǎng)絡(luò)、性能問(wèn)題(主要是如何評(píng)判計(jì)算機(jī)系統(tǒng))以及討論技術(shù)發(fā)展對(duì)未來(lái)體系結(jié)構(gòu)的影響。
對(duì)工藝實(shí)現(xiàn)細(xì)節(jié)的理解也是非常重要的,因?yàn)楹芏囿w系結(jié)構(gòu)的設(shè)計(jì)決策都受底層工藝的影響。因此在第2章中,我們對(duì)CMOS進(jìn)行回顧并探討相關(guān)問(wèn)題。有VLSI設(shè)計(jì)背景的學(xué)生可以略過(guò)某些講解。
……
Michel Dubois,南加州大學(xué)謝明(Ming Hsieh)電子工程系教授。
Murali Annavaram,南加州大學(xué)謝明(Ming Hsieh)電子工程系副教授。
Per Stenstrm,瑞典哥德堡查爾姆斯理工大學(xué)計(jì)算機(jī)工程教授
目 錄
Parallel Computer Organization and Design
出版者的話
贊譽(yù)
譯者序
前言
第1章 總述1
1.1 什么是計(jì)算機(jī)體系結(jié)構(gòu)2
1.2 并行體系結(jié)構(gòu)的基本組成3
1.2.1 處理器4
1.2.2 存儲(chǔ)6
1.2.3 互連9
1.3 并行體系結(jié)構(gòu)10
1.3.1 指令級(jí)并行10
1.3.2 線程級(jí)并行10
1.3.3 向量和陣列處理器11
1.4 性能12
1.4.1 基準(zhǔn)測(cè)試集13
1.4.2 Amdahl定律15
1.5 技術(shù)挑戰(zhàn)19
1.5.1 功耗和能量19
1.5.2 可靠性19
1.5.3 連線延遲20
1.5.4 設(shè)計(jì)復(fù)雜度20
1.5.5 尺寸縮小極限和CMOS終點(diǎn)21
習(xí)題22
第2章 工藝及其影響25
2.1 概述25
2.2 電學(xué)基本定律26
2.2.1 歐姆定律26
2.2.2 電阻26
2.2.3 電容27
2.3 MOSFET晶體管和CMOS反相器27
2.4 工藝變更30
2.5 功耗和能耗31
2.5.1 動(dòng)態(tài)功耗31
2.5.2 靜態(tài)功耗35
2.5.3 功耗和能量指標(biāo)37
2.6 可靠性38
2.6.1 故障和錯(cuò)誤38
2.6.2 可靠性指標(biāo)39
2.6.3 故障率和老化40
2.6.4 瞬時(shí)故障42
2.6.5 間歇性故障44
2.6.6 永久性故障48
2.6.7 工藝偏差及其對(duì)故障的影響48
習(xí)題49
第3章 處理器微結(jié)構(gòu)51
3.1 概述51
3.2 指令集架構(gòu)52
3.2.1 指令類型和操作碼53
3.2.2 指令混合55
3.2.3 指令操作數(shù)55
3.2.4 異常、陷阱和中斷58
3.2.5 存儲(chǔ)一致性模型60
3.2.6 本書(shū)的核心ISA60
3.2.7 CISC和RISC61
3.3 靜態(tài)調(diào)度流水線63
3.3.1 經(jīng)典五級(jí)流水線64
3.3.2 指令亂序完成69
3.3.3 超流水和超標(biāo)量CPU72
3.3.4 分支預(yù)測(cè)73
3.3.5 靜態(tài)指令調(diào)度73
3.3.6 靜態(tài)流水線的優(yōu)缺點(diǎn)77
3.4 動(dòng)態(tài)調(diào)度流水線78
3.4.1 解決數(shù)據(jù)相關(guān):Tomasulo算法79
3.4.2 推測(cè)執(zhí)行82
3.4.3 動(dòng)態(tài)分支預(yù)測(cè)83
3.4.4 支持推測(cè)的Tomasulo算法87
3.4.5 動(dòng)態(tài)內(nèi)存歧義消除89
3.4.6 顯式寄存器重命名91
3.4.7 指令發(fā)射后的寄存器讀取93
3.4.8 推測(cè)指令調(diào)度94
3.4.9 打破數(shù)據(jù)流限制:值預(yù)測(cè)97
3.4.10 單周期多指令98
3.4.11 處理復(fù)雜ISA98
3.5 超長(zhǎng)指令字微結(jié)構(gòu)99
3.5.1 動(dòng)態(tài)和靜態(tài)技術(shù)100
3.5.2 VLIW體系結(jié)構(gòu)100
3.5.3 循環(huán)展開(kāi)102
3.5.4 軟件流水103
3.5.5 非循環(huán)VLIW調(diào)度108
3.5.6 謂詞指令109
3.5.7 推測(cè)內(nèi)存歧義消除110
3.5.8 異常110
3.6 EPIC微結(jié)構(gòu)112
3.7 向量微結(jié)構(gòu)113
3.7.1 算術(shù)/邏輯向量指令113
3.7.2 內(nèi)存向量指令114
3.7.3 向量分段開(kāi)采和鏈接115
3.7.4 條件語(yǔ)句116
3.7.5 scatter和gather操作117
習(xí)題118
第4章 存儲(chǔ)層次136
4.1 概述136
4.2 金字塔形存儲(chǔ)層次137
4.2.1 訪存局部性138
4.2.2 存儲(chǔ)層次中的一致性138
4.2.3 存儲(chǔ)包含139
4.3 cache層次139
4.3.1 cache映射及組織方式139
4.3.2 替換策略142
4.3.3 寫(xiě)策略143
4.3.4 cache層次的性能144
4.3.5 cache失效的分類145
4.3.6 非阻塞cache145
4.3.7 cache預(yù)取和預(yù)加載147
4.4 虛擬存儲(chǔ)149
4.4.1 引入虛存的動(dòng)機(jī)149
4.4.2 從操作系統(tǒng)視角看到的虛擬存儲(chǔ)149
4.4.3 虛地址轉(zhuǎn)換151
4.4.4 訪存控制151
4.4.5 多級(jí)頁(yè)表152
4.4.6 反向頁(yè)表153
4.4.7 旁路轉(zhuǎn)換緩沖153
4.4.8 帶物理標(biāo)識(shí)的虛地址cache154
4.4.9 帶虛標(biāo)識(shí)的虛地址cache157
習(xí)題157
第5章 多處理器系統(tǒng)162
5.1 概述162
5.2 并行編程模型163
5.2.1 共享內(nèi)存系統(tǒng)164
5.2.2 消息傳遞系統(tǒng)166
5.3 基于消息傳遞的多處理器系統(tǒng)167
5.3.1 消息傳遞原語(yǔ)167
5.3.2 消息傳遞協(xié)議169
5.3.3 消息傳遞協(xié)議的硬件支持170
5.4 基于總線的共享內(nèi)存系統(tǒng)171
5.4.1 多處理器cache組織172
5.4.2 一個(gè)簡(jiǎn)單的偵聽(tīng)cache協(xié)議173
5.4.3 偵聽(tīng)cache協(xié)議的設(shè)計(jì)空間176
5.4.4 協(xié)議變種181
5.4.5 多階段偵聽(tīng)cache協(xié)議的設(shè)計(jì)問(wèn)題184
5.4.6 通信事件的分類188
5.4.7 TLB一致性190
5.5 可擴(kuò)展共享內(nèi)存系統(tǒng)192
5.5.1 目錄協(xié)議的基本概念和術(shù)語(yǔ)193
5.5.2 目錄協(xié)議實(shí)現(xiàn)方法193
5.5.3 目錄協(xié)議的擴(kuò)展性197
5.5.4 層次化系統(tǒng)200
5.5.5 頁(yè)面遷移和復(fù)制201
5.6 全cache共享內(nèi)存系統(tǒng)204
5.6.1 基本概念、硬件結(jié)構(gòu)和協(xié)議204
5.6.2 平坦COMA206
習(xí)題207
第6章 互連網(wǎng)絡(luò)214
6.1 概述214
6.2 互連網(wǎng)絡(luò)的設(shè)計(jì)空間215
6.2.1 設(shè)計(jì)概念綜述215
6.2.2 延遲和帶寬模型217
6.3 交換策略221
6.4 拓?fù)浣Y(jié)構(gòu)223
6.4.1 間接網(wǎng)絡(luò)223
6.4.2 直接網(wǎng)絡(luò)226
6.5 路由技術(shù)229
6.5.1 路由算法229
6.5.2 死鎖避免和確定性路由231
6.5