High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark (Paperback)

Holden Karau, Rachel Warren

  • 出版商: O'Reilly
  • 出版日期: 2017-07-11
  • 定價: $1,750
  • 售價: 9.0$1,575
  • 語言: 英文
  • 頁數: 358
  • 裝訂: Paperback
  • ISBN: 1491943203
  • ISBN-13: 9781491943205
  • 相關分類: Spark
  • 相關翻譯: 高性能Spark (簡中版)
  • 立即出貨 (庫存=1)

買這商品的人也買了...

商品描述

Apache Spark is amazing when everything clicks. But if you haven’t seen the performance improvements you expected, or still don’t feel confident enough to use Spark in production, this practical book is for you. Authors Holden Karau and Rachel Warren demonstrate performance optimizations to help your Spark queries run faster and handle larger data sizes, while using fewer resources.

Ideal for software engineers, data engineers, developers, and system administrators working with large-scale data applications, this book describes techniques that can reduce data infrastructure costs and developer hours. Not only will you gain a more comprehensive understanding of Spark, you’ll also learn how to make it sing.

With this book, you’ll explore:

  • How Spark SQL’s new interfaces improve performance over SQL’s RDD data structure
  • The choice between data joins in Core Spark and Spark SQL
  • Techniques for getting the most out of standard RDD transformations
  • How to work around performance issues in Spark’s key/value pair paradigm
  • Writing high-performance Spark code without Scala or the JVM
  • How to test for functionality and performance when applying suggested improvements
  • Using Spark MLlib and Spark ML machine learning libraries
  • Spark’s Streaming components and external community packages

商品描述(中文翻譯)

Apache Spark 是一個令人驚嘆的框架,當一切順利時。但如果你沒有看到預期的性能改進,或者仍然不夠自信在生產環境中使用 Spark,那麼這本實用書籍就是為你而寫的。作者 Holden Karau 和 Rachel Warren 展示了一些性能優化技巧,可以讓你的 Spark 查詢運行更快,處理更大的數據量,同時使用更少的資源。

這本書適合軟體工程師、數據工程師、開發人員和系統管理員,他們在處理大規模數據應用時,可以使用這些技巧來降低數據基礎設施成本和開發人員的工作時間。你不僅會對 Spark 有更全面的理解,還會學習如何讓它發揮最大的效能。

這本書將帶你探索以下內容:

- Spark SQL 的新接口如何提高性能,相比於 SQL 的 RDD 數據結構
- 在 Core Spark 和 Spark SQL 中選擇數據聯接的方法
- 如何充分利用標準 RDD 轉換的技巧
- 如何解決 Spark 中鍵/值對範式的性能問題
- 在不使用 Scala 或 JVM 的情況下編寫高性能的 Spark 代碼
- 在應用建議的改進時如何進行功能和性能測試
- 使用 Spark MLlib 和 Spark ML 機器學習庫
- Spark 的流式處理組件和外部社區套件