數據中心一體化最佳實踐:設計倉儲級計算機(原書第3版)
定 價:79 元
叢書名:數據科學與工程技術叢書
- 作者:[美]路易斯·安德烈·巴羅索 (Luiz Andre Barroso) 烏爾斯·
- 出版時間:2020/1/1
- ISBN:9787111644866
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP308
- 頁碼:0
- 紙張:
- 版次:
- 開本:16開
本書將介紹倉儲級計算機(WSC)。這種計算平臺是云計算的核心,支撐著我們每天都在使用的各種強大的互聯(lián)網服務。本書討論了此類新型系統(tǒng)如何將數據中心本身當作一臺超大規(guī)模倉儲級的計算機來使用,同時又能使軟硬件充分協(xié)同并提供高性能的互聯(lián)網服務。書中還詳細講述了WSC的架構設計,其中不僅涵蓋影響其設計、運行和成本結構的主要因素,還包括相應的基礎軟件的各種特性。每一章都介紹了多個真實世界的案例,其中包括詳盡的分析在線服務的基礎設施信息。本書主要面向當今WSC系統(tǒng)的架構師和程序開發(fā)人員,希望能為有志于在此重要領域發(fā)展的人才打下一個堅實的基礎,同時相關的內容也適用于那些僅想了解互聯(lián)網基礎設施信息的人群。
譯者序
致謝
作者簡介
譯者簡介
第1章 緒論1
1.1 倉儲級計算機2
1.2 規(guī)模化下的成本效益3
1.3 不僅是服務器的簡單堆砌4
1.4 單個數據中心與多個數據中心4
1.5 為什么WSC對你至關重要5
1.6 WSC架構概述6
1.6.1 服務器6
1.6.2 存儲7
1.6.3 網絡結構8
1.6.4 建筑與基礎設施9
1.6.5 電力使用11
1.6.6 故障與維修處理12
1.7 本書概述12
第2章 工作負載與基礎軟件15
2.1 WSC系統(tǒng)棧15
2.2 平臺層軟件16
2.3 集群層基礎軟件17
2.3.1 資源管理17
2.3.2 集群基礎軟件18
2.3.3 應用框架18
2.4 應用層軟件19
2.4.1 工作負載多樣性19
2.4.2 網頁搜索20
2.4.3 視頻服務22
2.4.4 學術文章相似度搜索23
2.4.5 機器學習24
2.5 監(jiān)控基礎設施27
2.5.1 服務層儀表盤27
2.5.2 性能診斷工具27
2.5.3 平臺層健康監(jiān)控28
2.6 WSC軟件的權衡29
2.6.1 數據中心和臺式機29
2.6.2 性能與可用性工具箱30
2.6.3 購買還是自建32
2.6.4 長尾容忍33
2.6.5 工程師應該知道的延遲數據33
2.7 云計算35
2.7.1 面向公有云服務的WSC和對內服務的WSC36
2.7.2 云原生軟件36
2.8 倉儲級信息安全37
第3章 WSC硬件組件39
3.1 服務器硬件39
3.1.1 服務器和機架概述40
3.1.2 大型SMP通信效率的影響43
3.1.3 高性能服務器和低性能服務器45
3.2 計算加速器48
3.2.1 圖形處理器49
3.2.2 張量處理器50
3.3 網絡52
3.3.1 集群網絡52
3.3.2 主機網絡56
3.4 存儲57
3.4.1 硬盤托盤與無盤服務器57
3.4.2 WSC非結構化存儲58
3.4.3 WSC結構化存儲59
3.4.4 存儲與網絡技術相互作用60
3.5 平衡的設計61
3.5.1 系統(tǒng)平衡:存儲層次結構62
3.5.2 量化延遲、帶寬及容量62
第4章 數據中心基礎:建筑、電力與冷卻65
4.1 數據中心概述65
4.1.1 等級分類與規(guī)格65
4.1.2 建筑基礎知識66
4.2 數據中心電力系統(tǒng)68
4.2.1 不間斷電源系統(tǒng)68
4.2.2 配電單元69
4.2.3 交流與直流配電架構對比70
4.3 應用實例:冗余徑向配電71
4.4 應用實例:中壓電源層72
4.5 數據中心冷卻系統(tǒng)74
4.5.1 機房空調系統(tǒng)76
4.5.2 冷水機組77
4.5.3 冷卻塔77
4.5.4 自然冷卻79
4.5.5 對氣流的考量79
4.5.6 機架內冷卻、行級冷卻和液體冷卻81
4.5.7 基于集裝箱的數據中心82
4.6 應用實例:谷歌數據中心頂部冷卻系統(tǒng)84
4.7 本章小結84
第5章 能耗與能效85
5.1 數據中心能效85
5.1.1 PUE指標86
5.1.2 PUE指標的問題88
5.1.3 數據中心能效損失來源89
5.1.4 提升數據中心能效90
5.1.5 基礎設施之外的因素91
5.2 計算能效92
5.2.1 能效的測量92
5.2.2 服務器能效92
5.2.3 WSC使用畫像93
5.3 能耗成比例計算95
5.3.1 能耗成比例程度低的原因96
5.3.2 提升能耗成比例的能力97
5.3.3 系統(tǒng)其他部分的能耗成比例98
5.3.4 低功耗模式的相對有效性99
5.3.5 軟件在能耗成比例中的作用100
5.4 通過專用定制提高能效103
5.5 數據中心供電105
5.5.1 部署適量的設備105
5.5.2 數據中心超額用電105
5.6 服務器能量使用趨勢107
5.7 本章小結109
第6章 成本建模111
6.1 資本成本111
6.2 運營成本113
6.3 案例分析114
6.4 實際數據中心成本116
6.5 建模部分使用的數據中心117
6.6 公有云成本118
第7章 故障處理與維修119
7.1 軟件容錯120
7.2 故障分類121
7.2.1 故障嚴重性分級122
7.2.2 導致服務級故障的原因123
7.3 機器級故障124
7.3.1 導致機器級故障的原因127
7.3.2 故障預測128
7.4 維修129
7.5 容錯不是隱藏錯誤130
7.6 集群系統(tǒng)設計的故障統(tǒng)計131
第8章 結束語135
8.1 硬件136
8.2 軟件137
8.3 經濟性與能效138
8.4 打造響應快速的大規(guī)模系統(tǒng)139
8.4.1 不斷演進的工作負載139
8.4.2 殘酷的阿姆達爾定律139
8.4.3 為微秒級系統(tǒng)優(yōu)化140
8.4.4 長尾140
8.5 展望141
8.5.1 摩爾定律的終結141
8.5.2 加速器與全局系統(tǒng)設計141
8.5.3 軟件定義基礎設施142
8.5.4 計算機體系結構和WSC的新紀元143
8.6 總結144
參考文獻145