高性能計算系統與大數據分析

[印] 佩瑟魯·拉吉(Pethuru Raj)阿諾帕馬·拉曼(Anupama Raman)德維亞·拉加拉(Dhivy

商品描述

大數據時代,數據的規模、速度、範圍和結構對計算、存儲和網絡基礎設施提出了更高的要求,如何構建更加高效的基礎設施對於獲得良好的大數據分析結果至關重要。本書從大數據分析中對高性能技術的需求講起,分析了進行高性能大數據分析需要的網絡基礎設施、存儲基礎設施,如何使用高性能計算進行實時分析,高性能計算範型,大數據分析中的高性能集成系統、數據庫和數據倉庫,高性能大數據分析的可視化等內容。

目錄大綱

譯者序

前言
第1章IT領域的變革以及未來趨勢1 
1.1引言1 
1.2新興的IT趨勢1 
1.3數字化實體的實現與發展4 
1.4物聯網/萬物互聯5 
1.5對社交媒體網站的廣泛採用7 
1.6預測性、規範性、個性化分析時代7 
1.7用於大數據及分析的Apache Hadoop11 
1.8大數據、大洞見、大動作13 
1.9結論15 
1.10習題15 
第2章大數據/快速數據分析中的高性能技術16 
2.1引言16 
2.2大數據分析學科的出現17 
2.3大數據的戰略意義18 
2.4大數據分析的挑戰19 
2.5高性能計算範型19 
2.6通過並行實現高性能的方法21 
2.7集群計算22 
2.8網格計算24 
2.9雲計算27 
2.10異構計算29 
2.11用於高性能計算的大型機31 
2.12用於大數據分析的超級計算32 
2.13用於大數據分析的設備32 
2.13.1用於大規模數據分析的數據倉庫設備33 
2.13.2 in-memory大數據分析35
2.13.3大數據的in-database處理37 
2.13.4基於Hadoop的大數據設備38 
2.13.5高性能大數據存儲設備41 
2.14結論42 
2.15習題42 
參考文獻43 
第3章大數據與快速數據分析對高性能計算的渴望44 
3.1引言44 
3.2重新審視大數據分析範型45 
3.3大數據和快速數據的含義47 
3.4用於精確、預測性、規範性洞見的新興數據源48 
3.5大數據分析為何不俗50 
3.6傳統的和新一代的數據分析案例研究51 
3.7為何採用基於雲的大數據分析55 
3.8大數據分析:主要處理步驟57 
3.9實時分析58 
3.10流分析62 
3.11傳感器分析63 
3.11.1大數據分析與高性能計算的同步:附加價值63 
3.12結論64 
3.13習題64 
第4章高性能大數據分析的網絡基礎設施65 
4.1引言65 
4.2當前網絡基礎設施的局限66 
4.3高性能大數據分析網絡基礎設施的設計方法68 
4.3.1網絡虛擬化68 
4.3.2軟件定義網絡76 
4.3.3網絡功能虛擬化78
4.4用於傳輸大數據的廣域網優化79 
4.5結論81 
4.6習題81 
參考文獻81 
第5章高性能大數據分析的存儲基礎設施82 
5.1引言82 
5.2直連式存儲83 
5.2.1 DAS的缺點84 
5.3存儲區域網絡85 
5.3.1塊級訪問85 
5.3.2文件級訪問85 
5.3.3對象級訪問85 
5.4保存大數據的存儲基礎設施需求86 
5.5光纖通道存儲區域網絡87 
5.6互聯網協議存儲區域網絡88 
5.6. 1以太網光纖通道88 
5.7網絡附屬存儲89 
5.8用於高性能大數據分析的流行文件系統89 
5.8.1 Google文件系統89 
5.8.2 Hadoop分佈式文件系統91 
5.8.3 Panasas92 
5.8.4 Luster文件系統94 
5.9雲存儲簡介96 
5.9.1雲存儲系統的架構模型96 
5.9.2存儲虛擬化98 
5.9.3雲存儲中使用的存儲優化技術100 
5.9.4雲存儲的優點101 
5.10結論101 
5.11習題101 
參考文獻102
進一步閱讀102 
第6章使用高性能計算進行實時分析103 
6.1引言103 
6.2支持實時分析的技術103 
6.2.1 in-memory處理103 
6.2.2 in-database分析105 
6.3大規模在線分析106 
6.4通用並行文件系統107 
6.4.1 GPFS用例107 
6.5 GPFS客戶案例研究111 
6.5.1廣播公司:VRT111 
6.5.2石油公司從Lustre遷移到GPFS113 
6.6 GPFS:關鍵的區別113 
6.6.1基於GPFS的解決方案114 
6.7機器數據分析114 
6.7.1 Splunk114 
6.8運營分析115 
6.8.1運營分析中的技術115 
6.8.2用例以及運營分析產品116 
6.8.3其他IBM運營分析產品117 
6.9結論117 
6.10習題118 
第7章高性能計算範型119 
7.1引言119 
7.2為何還需要大型機119 
7.3大型機中HPC是如何演化的120 
7.3.1成本:HPC的一個重要因素120 
7.3.2雲計算中的集中式HPC120
7.3.3集中式HPC的要求121 
7.4 HPC遠程模擬121 
7.5使用HPC的大型機解決方案121 
7.5.1智能大型機網格121 
7.5.2 IMG的工作原理122 
7.5.3 IMG架構122 
7.6架構模型125 
7.6.1具有共享磁盤的存儲服務器125 
7.6.2沒有共享磁盤的存儲服務器125 
7.6.3無存儲服務器的通信網絡125 
7.7對稱多處理126 
7.7.1什麼是SMP126 
7.7.2 SMP與集群方法126 
7.7 .3 SMP是否真的重要126 
7.7.4線程模型127 
7.7.5 NumaConnect技術127 
7.8用於HPC的虛擬化127 
7.9大型機方面的創新127 
7.10 FICON大型機接口128 
7.11大型機對手機的支持129 
7.12 Windows高性能計算129 
7.13結論130 
7.14習題131 
第8章in-database處理與in-memory分析132 
8.1引言132 
8.1.1分析工作負載與事務工作負載的對比132 
8.1.2分析工作負載的演化133
8.1.3傳統分析平台135 
8.2 in-database分析135 
8.2.1架構137 
8.2.2優點和局限138 
8.2.3代表性的系統138 
8.3 in-memory分析140 
8.3.1架構141 
8.3.2優點和局限142 
8.3.3代表性的系統142 
8.4分析設備145 
8.4.1 Oracle Exalytics145 
8.4.2 IBM Netezza145 
8.5結論147 
8.6習題147 
參考文獻148 
進一步閱讀148 
第9章大數據/快速數據分析中的高性能集成系統、數據庫和數據倉庫149 
9.1引言149 
9.2下一代IT基礎設施和平台的關鍵特徵150