大數據項目管理 從規劃到實現

[美] 特德·馬拉斯卡(Ted Malaska)[美] 喬納森·塞德曼(Jonathan Seidman)

立即出貨 (庫存 < 3)

  • 大數據項目管理 從規劃到實現-preview-1
  • 大數據項目管理 從規劃到實現-preview-2
大數據項目管理 從規劃到實現-preview-1

買這商品的人也買了...

商品描述

本書提供了一個框架,從整體上介紹與大數據項目開發相關的基本概念,幫助讀者評估大數據項目,理解成功的現代數據項目的基本要素。全書共8章,內容包括現代數據項目的主要類型、生命周期、風險管理、接口設計、分佈式存儲系統、元數據管理、數據處理等。本書旨在讓讀者釐清思路,順利地從數據項目的規劃階段走到執行階段,實現健壯、可維護的架構和解決方案。

作者簡介

特德·馬拉斯卡(Ted Malaska)


Capital One的企業架構主管,曾在暴雪娛樂公司擔任全球視野工程總監,負責為《魔獸世界》《守望先鋒》《爐石傳說》等遊戲提供支持。他為眾多開源項目貢獻過代碼,並與塞德曼等人合著有《Hadoop應用架構》。喬納森·塞德曼(Jonathan Seidman),Cloudera雲計算團隊的軟件工程師。在加入Cloudera之前,他是Orbitz Worldwide大數據團隊的技術負責人,負責為一個流量巨大的網站管理Hadoop集群。塞德曼與馬拉斯卡等人合著有《Hadoop應用架構》。【譯者介紹】 薛命燈,InfoQ高級社區編輯,畢業於廈門大學軟件學院,擁有十餘年軟件開發和架構經驗,曾在多家大型軟件公司任職,另譯有《Kafka權威指南》等技術圖書。

目錄大綱

 

前言


第1章數據項目的主要類型及考慮因素1
1.1數據項目的主要類型1
1.2數據管道和數據暫存3
1.2.1主要考慮因素和風險管理4
1.2.2數據管道和數據暫存團隊的人員組成13
1.3數據的處理和分析14
1.3.1主要考慮因素和風險管理14
1.3.2數據處理和分析團隊的人員組成17
1.4應用程序開發17
1.4.1主要考慮因素和風險管理18
1.4.2應用程序開發團隊的人員組成22
1.5小結22


第2章評估和選擇數據管理解決方案25
2.1開源項目的階段26
2.1.1孵化階段27
2.1.2發布階段27
2.1.3 “治愈癌症”階段27
2.1.4打破承諾階段28
2.1.5強化階段29
2.1.6企業階段30
2.1.7終結階段30
2.2開源項目的常見生命週期31
2.2.1使產品起死回生32
2.2.2追隨者33
2.3評估基準測試34
2.4技術選型的考慮因素35
2.4. 1了解構建塊36
2.4.2尋求建議37
2.4.3從分析師那裡獲得見解37
2.4.4研究市場趨勢37
2.5小結39


第3章數據項目的風險管理41
3.1風險類型41
3.1.1技術風險41
3.1.2團隊風險42
3.1.3需求風險42
3.2風險管理42
3.2.1對架構中的風險進行分類42
3.2.2技術風險45
3.2.3團隊的優勢45
3.2.4外部團隊風險47
3.2.5需求風險47
3.2.6融會貫通47
3.3使用原型和PoC 50
3.3.1找到兩三種方法50
3.3.2進行PoC,然後丟棄50
3.3.3部署的注意事項50
3.4使用接口51
3.5儘早開始構建52
3.6頻繁測試並保留記錄52
3.7監控和警報53
3.8溝通風險54
3.8.1合作並獲得信任54
3.8.2公開風險54
3.9將風險作為談判工具55
3.10小結55


第4章接口設計57
4.1人體57
4.1.1人體與數據架構57
4.1.2解耦61
4.1.3解耦的注意事項63
4.1.4專門化64
4.2什麼造就了好的接口設計64
4.2.1合約64
4.2.2抽象64
4.2.3版本控制65
4.2.4防禦65
4.2.5接口的文檔和命名66
4.3非功能性考慮因素67
4.3.1可用性67
4.3.2響應時間68
4.3.3負載容量68
4.3.4使用測試來確定SLA 69
4.4通用接口示例69
4.4.1發布C訂閱69
4.4.2異步請求C響應71
4.4.3同步請求C響應72
4.5小結73


第5章分佈式存儲系統75
5.1分佈式存儲系統的屬性75
5.1.1譜系76
5.1.2分區77
5.1.3處理數據變更78
5.1.4讀取路徑80
5.1.5可用性與一致性84
5.1.6主要用例85
5.2存儲系統細分85
5.2.1 HDFS 86
5.2.2 S3和對象存儲系統87
5.2.3 Apache HBase 89
5.2.4 Apache Cassandra 90
5.2.5 Elasticsearch和Apache Solr 94
5.2.6新進者:Apache Kudu和CockroachDB 95
5.2.7內存存儲系統96
5.3小結99


第6章企業元數據101
6.1為什麼要關注元數據102
6.1.1數據可見性102
6.1.2數據之間的關係103
6.1.3數據監管104
6.2數據架構中的元數據類型105
6.2.1靜態數據106
6.2.2動態數據107
6.2.3數據源的元數據110
6.2.4有關數據處理的元數據111
6.2.5報告和儀錶盤112
6.3元數據收集112
6.3.1聲明式元數據收集113
6.3.2發現式元數據收集114
6.4元數據管理實踐115
6.5小結116


第7章確保數據完整性117
7.1構建數據管道118
7.2驗證數據管道123
7.2.1行數123
7.2.2唯一計數124
7.2.3全字節比較124
7.2.4校驗和比較125
7.3小結126


第8章數據處理127
8.1處理引擎的屬性127
8.1.1 DAG管理128
8.1.2計算隔離130
8.1 .3性能132
8.1.4容錯132
8.1.5交互模型135
8.1.6批處理或流處理135
8.2數據處理演變史136
8.3小結138


關於作者139


關於封面139