數據中心級計算 基礎架構 設計原理與管理策略

李超 過敏意

  • 出版商: 機械工業
  • 出版日期: 2025-11-01
  • 售價: $594
  • 語言: 簡體中文
  • 頁數: 428
  • ISBN: 7111787471
  • ISBN-13: 9787111787471
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書以其對現代數據中心的系統化闡述而獨具色,通過“剝洋蔥”的方式將數據中心級計算面臨的設計要點逐層展讀者面前。全書跨越從硬件基礎設施到軟件管理框架的完整技術棧,並深度融合可擴展性、可持續性、可管理性三大核心設計思想,構建了一套層次清晰、相互關聯的知識體系。書中借助豐富案例,不僅全面梳理了資源管理、能耗化等重要方向的核心內容,還前瞻性地討論了當前技術熱點與未來研究方向。本書對計算機系統相關課程教學具有重要參考值,同時也為科研人員投身算力化與綠色計算等方面研究提供了寶貴指南。

目錄大綱

前  言

本書導讀

作者簡介

第一分 基礎概念

第1章 緒論2

1.1 什麼是數據中心2

1.1.1 數據中心的功能3

1.1.2 數據中心的組成5

1.2 背景和發展軌跡7

1.2.1 微觀:從集成電路到處

   理器7

1.2.2 宏觀:從服務器到數據

   中心9

1.2.3 數據中心研發概述10

1.2.4 國內外政策摘要11

1.2.5 發展趨勢及統計12

本章小結13

練習思考13

參考文獻和引申閱讀14

第2章 數據中心級計算15

2.1 淺談計數與排序15

2.2 系統設計抽象17

2.2.1 計算抽象17

2.2.2 系統分層18

2.2.3 設計考量21

2.3 數據中心級計算全貌:以雲為例21

2.3.1 雲計算棧21

2.3.2 雲計算系統宏觀分析22

2.3.3 雲計算系統微觀分析24

2.4 案例:數據中心級計算服務25

2.4.1 互聯網搜索引擎26

2.4.2 大數據批式處理27

2.4.3 大數據流式處理29

2.5 關鍵設計目標30

2.5.1 服務等級30

2.5.2 資源消耗33

2.5.3 總體成本36

2.5.4 在線時長37

2.5.5 容災備份42

本章小結44

練習思考44

參考文獻和引申閱讀46

第二分 系統架構

第3章 核心計算設施50

3.1 服務器和數據中心51

3.1.1 服務器作為基礎單元51

3.1.2 數據中心層次化結構54

3.2 服務器內綜合計算環境56

3.2.1 異構計算單元56

3.2.2 高速設備互連58

3.3 數據中心訪存層級擴展60

3.3.1 內存技術概述60

3.3.2 內存性能增強63

3.3.3 內存層級擴展66

3.3.4 統一內存訪問68

3.3.5 存算分離架構69

3.4 數據中心存儲系統簡介70

3.4.1 直連存儲系統70

3.4.2 網絡接入存儲71

3.4.3 存儲區域網絡71

3.4.4 分布式對象存儲72

3.5 數據中心網絡拓撲結構73

3.5.1 機房數據通信概述73

3.5.2 機房結構化布線74

3.5.3 典型網絡拓撲結構77

3.5.4 網絡通信的影響79

3.6 資源共享與融合80

3.6.1 虛擬化計算環境80

3.6.2 資源容器82

3.6.3 融合基礎設施83

本章小結84

練習思考85

參考文獻和引申閱讀86

第4章 基礎支撐設施88

4.1 組成總覽89

4.1.1 一幅圖全貌89

4.1.2 機房規模和結構90

4.2 機房供電91

4.2.1 層次化供電架構91

4.2.2 雙路供電模式92

4.2.3 供電負荷管控93

4.3 儲能備電94

4.3.1 不間斷電源94

4.3.2 層次化儲能架構96

4.4 供電通路能損96

4.4.1 電力轉換能損97

4.4.2 儲能設備能損98

4.5 用電容量規劃100

4.5.1 功耗容量成本100

4.5.2 PDU功率分配101

4.5.3 峰值功耗應對101

4.5.4 額認購建模103

4.6 制冷系統107

4.6.1 系統概覽107

4.6.2 氣流規劃108

4.6.3 評估指標110

4.6.4 化途徑111

本章小結112

練習思考113

參考文獻和引申閱讀114

第5章 系統署模式116

5.1 中央署場景116

5.1.1 署模型117

5.1.2 署層級120

5.1.3 署效益120

5.1.4 裸機服務器122

5.2 邊緣署場景125

5.2.1 邊緣計算簡介125

5.2.2 邊緣數據中心127

5.2.3 霧計算與Cloudlet130

5.2.4 系統化視角132

5.3 案例:模塊化數據中心135

5.3.1 概念及現狀135

5.3.2 容量規劃136

5.3.3 殊運維實踐137

本章小結139

練習思考139

參考文獻和引申閱讀140

第三分 理念思想

第6章 可擴展性設計要求144

6.1 可擴展性問題144

6.1.1 什麼是可擴展性145

6.1.2 可擴展性的一般定義146

6.1.3 線性加速比150

6.2 可擴展計算研究152

6.2.1 系統擴展模式152

6.2.2 資源利用瓶頸153

6.2.3 橫向擴展的體系結構154

6.2.4 集群負載均衡155

6.2.5 墻與性能瓶頸158

6.3 案例:暗矽效應160

6.3.1 芯片級的暗矽161

6.3.2 設施級的暗矽161

本章小結162

練習思考163

參考文獻和引申閱讀164

第7章 可持續性設計要求166

7.1 可持續性問題166

7.1.1 什麼是可持續性166

7.1.2 可持續性要素167

7.1.3 可持續發展理念168

7.1.4 碳足跡與碳中和168

7.2 可持續計算171

7.2.1 能效先的設計171

7.2.2 可持續計算層次172

7.2.3 系統生命周期管理175

7.2.4 學術界裏程碑事件176

7.2.5 業界評估與實踐177

7.3 案例:新能源綠色數據中心177

7.3.1 新能源集成方式178

7.3.2 代表性原型系統179

7.3.3 綠色數據中心設計要點180

本章小結181

練習思考181

參考文獻和引申閱讀183

第8章 可管理性設計要求185

8.1 可管理性簡介185

8.1.1 一般概念186

8.1.2 運維管理187

8.2 同構與異構問題188

8.2.1 工藝異構188

8.2.2 架構異構189

8.2.3 系統異構191

8.2.4 應用異構192

8.3 局與全局問題193

8.3.1 全棧設計193

8.3.2 跨層化193

8.4 動態與變化問題194

8.4.1 同步/異步194

8.4.2 非確定性195

8.5 計算機系統自主管理197

8.5.1 傳統啟發式系統管理197

8.5.2 基於反饋控制的管理197

8.5.3 基於機器學習的管理198

8.5.4 自主計算概念和模型198

8.6 案例:數據中心節點功耗控制199

8.6.1 數據中心的層級化功耗

   控制199

8.6.2 負載均衡和功耗調控201

本章小結202

練習思考202

參考文獻和引申閱讀203

第四分 化方法

第9章 資源利用206

9.1 集群作業調度207

9.1.1 負載基本問題207

9.1.2 批處理作業208

9.1.3 一般作業調度方法208

9.2 數據中心中的虛擬機211

9.2.1 核心作概述212

9.2.2 彈性伸縮機制 214

9.2.3 容器資源管理215

9.3 虛擬機分配217

9.3.1 虛擬機供給方式217

9.3.2 資源計費模型219

9.3.3 虛擬機額分配219

9.3.4 虛擬機分配機制220

9.3.5 虛擬機裝箱問題221

9.4 負載遷移整合222

9.4.1 虛擬機熱遷移222

9.4.2 虛擬機整合224

9.5 虛擬處理器調度227

9.5.1 一般調度規則227

9.5.2 虛擬SMP調度228

9.5.3 Xen調度策略230

9.6 作業混與調231

9.6.1 延時敏感型任務231

9.6.2 盡力而為型任務232

9.6.3 任務幹擾與隔離233

9.7 空閒資源挖掘與發現234

9.7.1 資源閒置問題234

9.7.2 資源利用開銷235

9.7.3 資源碎片與整合236

9.8 跨數據中心資源利用237

9.8.1 全局資源彈性237

9.8.2 數據中心跨域資源管理238

本章小結240

練習思考240

參考文獻和引申閱讀241

第10章 電能管理245

10.1 分析模型246

10.1.1 電用在哪裏246

10.1.2 處理器功耗模型246

10.1.3 內存功耗模型248

10.1.4 磁盤功耗模型249

10.1.5 散熱設計功耗251

10.1.6 制冷功耗建模252

10.2 功耗管理基礎254

10.2.1 配置接口ACPI254

10.2.2 處理器休眠與S狀態255

10.2.3 處理器調控與C狀態256

10.2.4 性能調節與P狀態256

10.2.5 軟硬協同的管理機制258

10.3 電能管理策略259

10.3.1 升頻還是降頻259

10.3.2 負載調度還是硬件調控261

10.3.3 功率封與整形262

10.3.4 功耗管理延時開銷264

10.4 能耗勻增的計算266

10.4.1 EP的基本概念266

10.4.2 深入分析EP267

10.4.3 設施級EP268

10.5 能耗驅動的系統化269

10.5.1 應用征感知269

10.5.2 時空參數調270

10.5.3 異構架構化271

10.6 殊電能管理機制273

10.6.1 近似計算273

10.6.2 間歇計算274

10.6.3 計算沖刺275

10.6.4 電能緩沖276

10.6.5 負載跟隨277

10.7 能耗管理分類278

10.7.1 分層管理視角278

10.7.2 功耗管理區間278

本章小結280

練習思考280

參考文獻和引申閱讀282

第11章 觀測感知285

11.1 基礎設施管理系統286

11.1.1 基礎設施管理286

11.1.2 帶內帶外監控287

11.2 資源繪像與監控288

11.2.1 資源繪像簡介288

11.2.2 資源監控內容288

11.2.3 資源監控方式289

11.2.4 性能事件計數290

11.2.5 功耗能耗監控293

11.3 觀測工具294

11.3.1 分布式追蹤記錄設施294

11.3.2 觀測粒度問題294

11.3.3 軟硬件繪像工具發展296

11.3.4 資源繪像分析進展298

11.4 案例:異構計算平臺監測299

11.4.1 GPU感知工具介紹299

11.4.2 典型感知參數303

11.5 案例:HPC數據中心監測304

11.6 案例:IDC數據中心監測305

11.6.1 谷歌持續繪像接口305

11.6.2 谷歌分布式追蹤記錄

    設施305

11.6.3 谷歌大規模性能度量

    機制306

本章小結307

練習思考308

參考文獻和引申閱讀309

第12章 穩定運行312

12.1 異常運行狀況的產生313

12.1.1 一般故障分析313

12.1.2 限任務負載315

12.1.3 限系統配置318

12.1.4 設計風險評估321

12.2 構建高可用的計算集群322

12.2.1 冗余供電容量322

12.2.2 數據副本管理323

12.2.3 檢查點及設置324

12.2.4 故障域和容錯325

12.2.5 系統綜合感知326

12.3 案例:供電引發的運行風險328

12.3.1 能耗攻擊328

12.3.2 功耗攻擊329

12.3.3 功率奪330

12.4 設備老化與處理331

12.4.1 計算設備老化問題332

12.4.2 老化服務器處理333

12.4.3 基礎設施老化問題335

本章小結336

練習思考336

參考文獻和引申閱讀337

第13章 管理框架340

13.1 數據中心中間件340

13.1.1 中間件的概念340

13.1.2 中間件的類型341

13.1.3 中間件對比調度器343

13.2 調度器的組織架構343

13.2.1 中央式調度架構344

13.2.2 分布式調度架構345

13.2.3 混合式調度架構346

13.3 資源分配模式346

13.3.1 集中式資源分配346

13.3.2 層級式資源分配347

13.3.3 全局式資源分配348

13.4 調度框架化349

13.4.1 任務隊列管理349

13.4.2 調度沖突化350

13.4.3 管理模糊性思考351

13.5 案例:企業級調度框架352

13.5.1 Omega和Autopilot352

13.5.2 Apollo和Hydra353

本章小結355

練習思考355

參考文獻和引申閱讀356

第五分 未來展望

第14章 綜合化360

14.1 軟件定義的方法360

14.1.1 軟件定義的概念360

14.1.2 軟件定義的數據中心361

14.2 大數據分析驅動的方法363

14.2.1 日誌分析和挖掘363

14.2.2 數據驅動的系統管理363

14.3 人工智能輔助的設計364

14.3.1 基於機器學習的系統

    化364

14.3.2 數據中心智能化運維365

14.4 數據中心負載時間序列預測366

14.4.1 傳統時間序列預測方法367

14.4.2 機器學習方法367

本章小結368

練習思考368

參考文獻369

第15章 趨勢討論371

15.1 計算技術視角回望372

15.1.1 機器視角372

15.1.2 用戶視角373

15.2 數據中心未來趨勢觀察374

15.2.1 硬件設施角度觀察374

15.2.2 軟件系統角度觀察376

15.2.3 核心值角度觀察378

15.3 資源高效的數據中心378

15.3.1 資源利用的三個維度379

15.3.2 高維視角380

15.3.3 回顧三個維度381

15.3.4 系統設計有奇點嗎382

15.4 結語382

參考文獻382

讀者技術預測表383

附錄

附錄A 計算層補充點386

附錄B 設施層補充點394

附錄C 評估方法402

附錄D 工程倫理討論409

主要概念和術語索引417

重要英文縮寫說明424