大數據技術與應用-Hadoop和PySpark實現

周顯春 肖衡

  • 出版商: 清華大學
  • 出版日期: 2025-05-01
  • 售價: $360
  • 語言: 簡體中文
  • 頁數: 287
  • ISBN: 7302687439
  • ISBN-13: 9787302687436
  • 相關分類: HadoopSpark大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書以Python為基礎, 深入講解HDFS分佈式文件 系統和PySpark3編程。全書 共9章,內容包括Docker環 境下Hadoop與Spark的配置 、HDFS操作技巧、RDD編 程方法、Spark SQL應用、 Spark架構及運行機制、 Pandas on Spark使用及 Spark ML編程實踐。本書 通過實際操作案例,幫助讀 者掌握Hadoop和PySpark的 環境搭建與應用編程,附帶 豐富的教學資源,包括教案 、教學課件、練習題、源代 碼、數據集及核心知識點視 頻講解及實驗指導,為讀者 提供強大支持。 本書適合作為全國高等 學校計算機、軟件工程、數 據科學與大數據技術、人工 智能等專業的教材,同時對 大數據應用開發者和技術從 業者亦有參考價值。|

目錄大綱

第1章 大數據技術概述
1.1 大數據技術的發展背景
1.2 大數據核心概念和關鍵技術
1.2.1 大數據核心概念
1.2.2 大數據關鍵技術
1.3 代表性大數據分佈式處理框架
1.3.1 Hadoop
1.3.2 Spark
1.3.3 Flink
1.3.4 常見計算框架的性能對比
本章小結
習題1
實驗1 Linux常用命令的使用
第2章 基於Docker的Hadoop集群搭建
2.1 Docker基礎知識
2.1.1 Docker的核心概念
2.1.2 Docker的常見操作
2.1.3 Docker網絡
2.2 Docker環境的準備
2.2.1 CentOS鏡像下載
2.2.2 創建與訪問容器
2.3 Hadoop集群的搭建
2.3.1 集群部署模式
2.3.2 集群規劃
2.3.3 前置軟件的安裝和配置
2.3.4 Hadoop的安裝與配置
2.4 集群的運行與驗證
2.4.1 集群的啟動與關閉
2.4.2 Web頁面監控
本章小結
習題2
實驗2 基於Docker的Hadoop集群搭建
第3章 大數據存儲與查詢
3.1 HDFS概述
3.2 HDFS運行架構與原理
3.2.1 存儲架構
3.2.2 讀寫原理
3.3 HDFS Shell操作
3.3.1 HDFS Shell介紹
3.3.2 HDFS Shell常用操作實踐
3.4 HDFS的Python API操作
3.4.1 pyhdfs API操作概述
3.4.2 HDFS的Python API常用操作實踐
3.5 HBase
3.5.1 HBase的重要特點和概念
3.5.2 HBase集群部署
3.5.3 HBase Shell基本操作
3.5.4 HBase數據查詢
本章小結
習題3
實驗3 HDFS存儲和HBase查詢
第4章 基於Docker的Spark集群搭建與使用
4.1 Spark集群的搭建
4.1.1 Scala的下載與安裝
4.1.2 Spark的下載與安裝
4.1.3 Spark集群配置
4.1.4 其他依賴包的安裝與配置
4.1.5 生成Spark集群鏡像
4.2 集群運行
4.2.1 創建容器
4.2.2 啟動Spark集群
4.2.3 啟動Spark History Server
4.2.4 關閉集群
4.3 Spark部署
4.3.1 Spark部署分類
4.3.2 Spark常用部署
4.3.3 使用spark-submit提交作業
4.3.4 可能出現的配置問題
本章小結
習題4
實驗4 基於Docker的Spark集群搭建
第5章 Spark概述
5.1 Spark的定義
5.1.1 Spark的主要發展階段
5.1.2 Spark的生態系統
5.1.3 應用場景
5.2 Spark的架構與運行原理
5.2.1 基本概念
5.2.2 架構設計
5.2.3 運行流程
5.3 基於Jupyter Notebook的PySpark開發平臺搭建
5.3.1 配置Jupyter Notebook遠程訪問
5.3.2 基於Jupyter Notebook的PySpark環境啟動及驗證
5.3.3 基於Jupyter Notebook的PySpark應用程序的開發
5.4 基於PyCharm的PySpark開發平臺搭建
5.4.1 創建與配置SFTP連接
5.4.2 部署應用程序
5.4.3 開發平臺的驗證
5.4.4 可能出現的問題
本章小結
習題5
實驗5 基於Jupyter Notebook的PySpark開發平臺的搭建
第6章 Spark RDD
6.1 RDD的運作方式
6.1.1 RDD的概念
6.1.2 RDD的特性
6.1.3 RDD之間的依賴關系
6.1.4 階段劃分
6.1.5 RDD的運行過程
6.2 RDD的創建
6.2.1 並行化創建RDD
6.2.2 讀取外部數據集
6.3 RDD操作
6.3.1 RDD的分類
6.3.2 RDD的轉換
6.3.3 RDD的動作
6.3.4 鍵值對RDD
6.3.5 綜合案例
6.4 文件讀寫
本章小結
習題6
實驗6 Spark RDD編程實踐
第7章 Spark SQL
7.1 Spark SQL概述
7.2 DataFrames的創建與保存
7.2.1 createDataFrame函數
7.2.2 讀寫外部文件
7.2.3 讀寫數據庫
7.3 DataFrame的常用操作
7.3.1 基本操作
7.3.2 覆雜操作
7.3.3 自定義函數
7.4 DataFrame與RDD的相互轉換
7.4.1 DataFrame轉RDD
7.4.2 RDD轉DataFrame
本章小結
習題7
實驗7 Spark SQL編程實踐
第8章 Pandas API on Spark編程
8.1 Pandas on Spark基礎
8.1.1 Pandas on Spark產生的背景
8.1.2 Pandas on Spark的數據類型
8.1.3 Pandas on Spark的數據結構
8.2 Pandas API on Spark
8.2.1 讀取/保存函數
8.2.2 常用屬性
8.2.3 索引
8.2.4 常用方法
8.2.5 分組
8.2.6 Spark-related函數
8.2.7 Pandas-on-Spark specific
8.2.8 Plotting pandas on pyspark
8.3 不同DataFrame的轉換
8.3.1 Pandas on Spark DataFrame
8.3.2 Spark DataFrame
8.4 綜合案例——酒店預訂需求分析
8.4.1 需求分析
8.4.2 數據讀取及字段理解
8.4.3 數據預處理
8.4.4 用戶數據探索
本章小結
習題8
實驗8 Pandas API on Spark編程實踐
第9章 PySpark ML
9.1 Spark ML概述