Dataproc Cookbook: Running Spark and Hadoop Workloads in Google Cloud (Paperback)
暫譯: Dataproc 食譜:在 Google Cloud 上運行 Spark 和 Hadoop 工作負載 (平裝本)
Sadineni, Narasimha, Venkataraman, Anuyogam
買這商品的人也買了...
-
Digital Design: With an Introduction to the Verilog HDL, VHDL, and SystemVerilog, 6/e (GE-Paperback)$1,380$1,352 -
Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)$480$379 -
Kubernetes 建置與執行 : 邁向基礎設施的未來, 2/e (Kubernetes: Up and Running: Dive into the Future of Infrastructure, 2/e)$520$411 -
Kubernetes 最佳實務 : 成功部署應用程式的藍圖 (Kubernetes Best Practices: Blueprints for Building Successful Applications on Kubernetes)$520$411 -
Python for DevOps|學習精準有效的自動化 (Python for Devops: Learn Ruthlessly Effective Automation)$780$616 -
區塊鏈生存指南:帶你用 Python 寫出區塊鏈!(iT邦幫忙鐵人賽系列書)$520$406 -
資料密集型應用系統設計 (Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems)$980$774 -
實戰資料流架構:用 Apache Flink 建立永續高性能服務$880$695 -
AutoML 自動化機器學習:用 AutoKeras 超輕鬆打造高效能 AI 模型 (Automated Machine Learning with AutoKeras: Deep learning made accessible for everyone with just few lines of coding)$690$545 -
精通資料分析|使用 Excel、Python 和 R (Advancing Into Analytics: From Excel to Python and R)$520$411 -
MongoDB 5.x 實戰應用$500$395 -
演算法學習手冊|寫出更有效率的程式 (Learning Algorithms: A Programmer's Guide to Writing Better Code)$580$458 -
AI 必須!從做中學貝氏統計 – 從事機器學習、深度學習、資料科學、大數據分析一定要懂的統計利器 (Bayesian Statistics for Beginners: A Step-By-Step Approach)$1,200$948 -
建構微服務|設計細微化的系統, 2/e (Building Microservices: Designing Fine-Grained Systems, 2/e)$880$695 -
IT 工程師必需!Linux 快速入門實戰手冊 - 從命令列、系統設定到開發環境建置, 實體機、虛擬機、容器化、WSL、雲端平台全適用$630$498 -
實戰 Python Flask 開發|基礎知識 x 物件偵測 x 機器學習應用$620$490 -
OpenTelemetry 入門指南:建立全面可觀測性架構(iThome鐵人賽系列書)【軟精裝】$750$563 -
可觀測性入門指南:Logs、Metrics、Traces 三大實戰應用,用 24個 Lab 鞏固你的 SRE 技能樹 (iThome鐵人賽系列書)$680$530 -
Java 網路元件專案 - 大型網際網路企業級最重要應用$880$695 -
數位邏輯設計, 7/e (Roth: Fundamentals of Logic Design, 7/e)$580$568 -
建構可擴展系統|設計分散式架構 (Foundations of Scalable Systems: Designing Distributed Architectures)$780$616 -
AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事$750$593
商品描述
Get up to speed with Dataproc, the fully managed and highly scalable service for running open source big data tools and frameworks, including Hadoop, Spark, Flink, and Presto. This cookbook shows data engineers, data scientists, data analysts, and cloud architects how to use Dataproc, integrated with Google Cloud, for data lake modernization, ETL, and secure data science at a fraction of the cost.
Narasimha Sadineni from Google and former Googler Anu Venkataraman show you how to set up and run Hadoop and Spark jobs on Dataproc. You'll learn how to create Dataproc clusters and run data engineering and data science workloads in long-running, ephemeral, and serverless ways. In the process, you'll gain an understanding of Dataproc, orchestration, logging and monitoring, Spark History Server, and migration patterns.
This cookbook includes hands-on examples for configuring, logging, securing clusters, and migrating from on-prem to Dataproc. You'll learn how to:
- Create Dataproc clusters on Compute Engine and Kubernetes Engine
- Run data science workloads on Dataproc
- Execute Spark jobs on Dataproc Serverless
- Optimize Dataproc clusters to be cost effective and performant
- Monitor Spark jobs in various ways
- Orchestrate various workloads and activities
- Use different methods for migrating data and workloads from existing Hadoop clusters to Dataproc
商品描述(中文翻譯)
快速掌握 Dataproc,這是一個完全管理且高度可擴展的服務,用於運行開源大數據工具和框架,包括 Hadoop、Spark、Flink 和 Presto。本書手冊向數據工程師、數據科學家、數據分析師和雲架構師展示如何使用與 Google Cloud 整合的 Dataproc 進行數據湖現代化、ETL 和安全數據科學,並以極低的成本實現。
來自 Google 的 Narasimha Sadineni 和前 Google 員工 Anu Venkataraman 將向您展示如何在 Dataproc 上設置和運行 Hadoop 和 Spark 作業。您將學習如何創建 Dataproc 叢集,並以長期運行、短暫和無伺服器的方式運行數據工程和數據科學工作負載。在此過程中,您將了解 Dataproc、編排、日誌記錄和監控、Spark 歷史伺服器以及遷移模式。
本手冊包括配置、日誌記錄、安全叢集和從本地遷移到 Dataproc 的實作範例。您將學習如何:
- 在 Compute Engine 和 Kubernetes Engine 上創建 Dataproc 叢集
- 在 Dataproc 上運行數據科學工作負載
- 在 Dataproc Serverless 上執行 Spark 作業
- 優化 Dataproc 叢集以提高成本效益和性能
- 以多種方式監控 Spark 作業
- 編排各種工作負載和活動
- 使用不同的方法將數據和工作負載從現有的 Hadoop 叢集遷移到 Dataproc