Spark 大數據技術與應用 (Scala版) — 基於 Hadoop 3.3 + Spark 3.5

李新輝 高永梅

  • 出版商: 電子工業
  • 出版日期: 2026-01-01
  • 售價: $360
  • 語言: 簡體中文
  • 頁數: 297
  • ISBN: 7121515474
  • ISBN-13: 9787121515477
  • 相關分類: Spark
  • 尚未上市,歡迎預購

相關主題

商品描述

Spark是業界主流的大數 據計算框架,擁有強大的分 布式計算能力,能夠充分利 用大量的廉價機器進行大數 據的處理工作,同時又具備 較高的性能,這使得它在各 大互聯網企業中有著廣泛的 應用。 本書通過一系列通俗易 懂的數據處理實例展開,詳 細闡述Spark大數據平臺與 環境搭建、Spark RDD離線 數據計算、Spark SQL離線 數據處理、Spark Streaming流數據計算等一 系列常見的大數據處理技術 ,在此基礎上對Spark框架 的核心概念及技術原理進行 詳細分析, 通過一個綜 合實例展示Spark離線數據 處理的具體應用與部署。本 書將Scala基礎知識的介紹 融入實例中,並未像傳統做 法那樣設置單獨的章節,方 便讀者按需學習,以減輕學 習一種新編程語言的壓力。 全書各環節遵循“做中學”的 設計理念,內容編排貼近初 學者的認知規律,從細小簡 單的實例入手,輔以大量配 圖,對學習過程中涉及的枯 燥數據、抽象概念和覆雜原 理予以圖示化的解釋說明, 還安排了大量單元訓練,以 達到教學過程中的“學以致 用”目的,內容編寫以語言 淺顯易懂、技術體系清晰、 邏輯銜接合理、知識內容夠 用為原則。在 安排的數 據處理綜合實例中,分別從 需求分析、技術準備、數據 清洗、需求實現、數據可視 化等幾個關鍵環節開展敘述 ,便於讀者對Spark大數據 項目的整體開發流程有一個 實際的體會。 本書是《Spark大數據分 析與實戰(Python +PySpark)》的姊妹版, 可作為高等學校大數據、人 工智能等相關專業課程的選 用教材,也可作為從事大數 據分析、大數據運維工作的 技術人員和廣大技術愛好者 的參考用書。

目錄大綱

第1章 Spark大數據平臺與環境搭建
1.1 引言
1.2 Spark大數據平臺介紹
1.2.1 Spark是什麼
1.2.2 Spark與大數據的應用場景
1.2.3 Spark編程環境(Scala)
1.2.4 Spark應用程序基本原理
1.3 Spark大數據環境搭建
1.3.1 Linux操作系統安裝和配置
1.Ubuntu虛擬機的安裝
2.Ubuntu基本配置
3.vi編輯器
4.MobaXterm遠程連接工具
1.3.2 Hadoop偽分布式集群環境搭建
1.JDK的安裝與配置
2.Linux免密登錄
3.Hadoop的安裝
4.HDFS的配置
5.YARN的配置
6.HDFS和YARN的測試
1.3.3 Spark單機運行環境搭建
1.Spark的安裝與配置
2.SparkShell交互式編程環境
3.Spark框架的目錄結構
1.4 Scala核心語法概覽
1.5 單元訓練
第2章 Spark RDD離線數據計算
2.1 引言
2.2 RDD基本原理
2.3 RDD編程模型
2.4 Spark RDD常用操作
2.4.1 RDD的創建
1.通過集合元素創建RDD
2.通過文本文件創建RDD
2.4.2 RDD的轉換操作
1.map數據轉換
2.flatMap數據轉換
3.filter數據篩選
4.sortBy數據排序
5.distinct數據去重
6.union數據合並
7.intersection數據交集
8.subtract數據差集
9.groupBy數據分組
10.groupByKey數據分組
11.reduceByKey數據歸並
12.sortByKey數據排序
13.keys和values操作
14.mapValues和flatMapValues操作
2.4.3 RDD的行動操作

最後瀏覽商品 (20)