《多核處理器緩存優(yōu)化關(guān)鍵問(wèn)題研究》圍繞多核體系結(jié)構(gòu),從片上網(wǎng)絡(luò)、緩存一致性和可重構(gòu)三個(gè)方面論述了影響多核存儲(chǔ)系統(tǒng)性能的主要因素。《多核處理器緩存優(yōu)化關(guān)鍵問(wèn)題研究》的主要研究成果是由北京理工大學(xué)基三多核體系研究小組完成;嗪梭w系結(jié)構(gòu)TriBA(TripletBased Architecture)是北京理工大學(xué)石峰教授提出的一種新型的多核處理器結(jié)構(gòu),匯集了Tiled、流式處理器、PIM等先進(jìn)多核體系結(jié)構(gòu)的優(yōu)點(diǎn),是一款具有鮮明自主創(chuàng)新特色和原創(chuàng)性的多核處理器體系結(jié)構(gòu)。
胡森森,北京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)工學(xué)博士,公派代爾夫特理工大學(xué)聯(lián)合培養(yǎng)博士,重慶工商大學(xué)講師。主持參與多項(xiàng)國(guó)家自然科學(xué)與社會(huì)科學(xué)基金項(xiàng)目,出版專著兩部。主要研究領(lǐng)域:區(qū)塊鏈背景下的信息管理技術(shù)、智能數(shù)據(jù)分析技術(shù)等。
圖1-1 英特爾商用處理器中集成的晶體管數(shù)目
圖1-2 采用2D Mesh拓?fù)浣Y(jié)構(gòu)的RAW處理器頂層設(shè)計(jì)
圖1-3 Intel Knights Landing多核處理器的結(jié)構(gòu)框圖
圖1-4 gzip和gcc執(zhí)行過(guò)程中指令級(jí)并行度的階段性變化
圖1-5 可重構(gòu)系統(tǒng)填補(bǔ)了通用處理器和專用集成電路的鴻溝
圖1-6 共享和私有Cache混合組織方式
圖1-7 兩種常見(jiàn)的集中式布局的共享L2高速緩存
圖1-8 Tile結(jié)構(gòu)的分布式布局共享L2高速緩存
圖1-9 廣播一致性協(xié)議和目錄一致性協(xié)議示意圖
圖1-10 片上網(wǎng)絡(luò)常見(jiàn)的三種拓?fù)浣Y(jié)構(gòu)
圖1-11 選擇路/組為重構(gòu)粒度的Cache組織方式
圖1-12 TriBA的內(nèi)核微體系結(jié)構(gòu)示意圖
圖2-1 2D Mesh片上網(wǎng)絡(luò)的三種布線拓?fù)浣Y(jié)構(gòu)
圖2-2 TriBA-NoC核問(wèn)通信網(wǎng)絡(luò)以及節(jié)點(diǎn)編碼方案
圖2-3 TriBA存儲(chǔ)層次的邏輯結(jié)構(gòu)
圖2-4 九核處理器存儲(chǔ)網(wǎng)絡(luò)中節(jié)點(diǎn)的編碼
圖2-5 2D Mesh和TirBA互連結(jié)構(gòu)的底層特點(diǎn)
圖2-6 CMesh和CTirBA互連結(jié)構(gòu)的底層特點(diǎn)
圖2-7 以Y型布局布線結(jié)構(gòu)實(shí)現(xiàn)的九核TriBA處理器方案
圖2-8 27核TriBA處理器的傳統(tǒng)布局布線方式
圖2-9 九核TriBA處理器矩形Tile曼哈頓布局布線示意圖
圖2-10 以矩形Tile方式采用曼啥頓布局布線實(shí)現(xiàn)27核TriBA處理器的示意圖
圖2-11 TriBA內(nèi)部四端口存儲(chǔ)控制器邏輯框圖
圖2-12 四端口路由器示意圖
圖2-13 TriBA網(wǎng)絡(luò)的一個(gè)基本組連接示意圖
圖2-14 網(wǎng)絡(luò)延遲比較
圖2-15 網(wǎng)絡(luò)吞吐量比較
圖3-1 傳統(tǒng)的三級(jí)層次化目錄協(xié)議GETX操作過(guò)程
圖3-2 傳統(tǒng)層次化目錄組織結(jié)構(gòu)
圖3-3 FCSL示意圖
圖3-4 64核Mesh的緩存一致性分組結(jié)構(gòu)
圖3-5 27核TriBA的緩存一致性分組結(jié)構(gòu)
圖3-6 目錄控制器的有限狀態(tài)機(jī)
圖3-7 VC協(xié)議中讀缺失和寫(xiě)缺失的事務(wù)處理過(guò)程
圖3-8 VC目錄組織結(jié)構(gòu)
圖3-9 27核三級(jí)分組層次化緩存一致性策略(邏輯示意圖)
圖3-10 VC-H的負(fù)載分配過(guò)程
圖3-11 不同緩存一致性協(xié)議的目錄存儲(chǔ)開(kāi)銷
圖3-12 緩存一致性協(xié)議的片上網(wǎng)絡(luò)消息數(shù)量比較(結(jié)果以H-MESI歸一化)
圖3-13 緩存一致性協(xié)議的片上網(wǎng)絡(luò)通信量比較(結(jié)果以Full-map歸一化)
圖3-14 緩存一致性協(xié)議的訪問(wèn)延時(shí)比較(結(jié)果以full-map歸一化)
圖3-15 緩存一致性協(xié)議的性能加速比比較(結(jié)果以HCD歸一化)
圖4-1 可重構(gòu)緩存的組織結(jié)構(gòu)
圖4-2 JPEG在緩存重構(gòu)時(shí)由于活動(dòng)數(shù)據(jù)丟失引起的缺失率比較
圖4-3 觸發(fā)Cache重構(gòu)的外部因素
圖4-4 JPEG應(yīng)用程序在運(yùn)行過(guò)程中指令集并行度的變化
圖4-5 Cache重構(gòu)的過(guò)渡期機(jī)制示意圖
圖4-6 引尺過(guò)渡期機(jī)制與立即重構(gòu)的Cache缺失率比較示意圖
圖4-7 Cache的Tag和掩碼寄存器示意圖
圖4-8 R-LRU置換算法分析
圖4-9 三種Downsize模式下Cache的缺失率(以立即重構(gòu)方式為基準(zhǔn)歸一化)
圖4-10 實(shí)際重構(gòu)后對(duì)缺失率的持續(xù)性效果(過(guò)渡期為2000周期)
圖4-11 執(zhí)行時(shí)間分析(以立即重構(gòu)為基準(zhǔn)歸一化)
圖4-12 選擇相同Cache路重構(gòu)情況下,訪存情況統(tǒng)計(jì)
圖4-13 交替選擇Cache路重構(gòu)情況下,訪存情況統(tǒng)計(jì)
圖5-1 測(cè)試用例PgP和CRC32隨發(fā)射寬度變化的footprint特征
圖5-2 使用反饋來(lái)阻止緩存重構(gòu)的示意圖
圖5-3 總體反饋機(jī)制框架示意圖
圖5-4 緩存監(jiān)視器抽樣示意圖
圖5-5 反饋控制環(huán)路
圖5-6 在有無(wú)反饋機(jī)制兩種策略下,各個(gè)發(fā)射寬度模式下的執(zhí)行比例
圖5-7 緩存缺失率比較(以無(wú)反饋機(jī)制的方法為基準(zhǔn)歸一化)
圖5-8 三種方案下緩存功耗的比較(以無(wú)反饋機(jī)制的方法為基準(zhǔn)歸一化)
圖5-9 執(zhí)行過(guò)程需要的緩存容量(以無(wú)反饋機(jī)制的方法為基準(zhǔn)歸一化)
圖5-10 EDP比較(以無(wú)反饋機(jī)制的方法為基準(zhǔn)歸一化)