PySpark大數據分析實戰

伍鮮,常麗娟編

  • 出版商: 機械工業
  • 出版日期: 2023-11-01
  • 售價: $714
  • 貴賓價: 9.5$678
  • 語言: 簡體中文
  • 頁數: 384
  • 裝訂: 平裝
  • ISBN: 7111739590
  • ISBN-13: 9787111739593
  • 相關分類: Spark大數據 Big-dataData Science
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

全書共11章,系統性地介紹了PySpark大數據分析的方法與技巧,內容涵蓋了大數據的相關技術、PySpark的基本概念、
Spark環境搭建、資料分析的基本概念及相關工具、開發工具的選擇、Spark核心程式設計及Spark SQL操作等基礎知識及核心技術,
以及Spark串流資料處理、Spark機器學習庫MLlib和基於協同過濾的圖書推薦系統等高階主題。
本書透過多個實戰案例,帶領讀者掌握使用Python和Spark進行大數據分析的方法和技巧,
從而提高讀者的數據處理能力和業務價值。

目錄大綱

前言
第1章初識PySpark
1.1 關於資料
1.2 了解Hadoop
1.2.1 分散式檔案系統HDFS
1.2.2 分散式運算框架MapReduce
1.2.3 資源調度管理框架YARN
1.3 了解Hive
1.4 了解Spark
1.4.1 Spark是什麼1.41 Spark是什麼
1. .2 Spark的發展歷程
1.4.3 Spark的特性
1.4.4 Spark的生態系
1.4.5 Spark的部署模式
1.4.6 Spark的運作架構
1.5 PySpark庫介紹
1.6 本章小結
第2章Spark環境搭建
2.1 安裝環境準備
2.1.1 作業系統準備
2.1.2 Java環境準備
2.1.3 Python環境準備
2.1.4 Spark安裝套件下載
2.1.5 Hadoop安裝包下載
2.2 Spark本地模式安裝
2.2.1 使用互動式pyspark運行程式碼
2.2.2 寬窄依賴與階段劃分
2.2.3 使用spark-submit提交程式碼
2.3 Spark獨立叢集安裝
2.3.1 設定並啟動Spark叢集
2.3.2 使用spark-submit提交程式碼
2.3.3 Spark History Server歷史服務
2.3.4 獨立叢集模式的程式碼運行流程
2.4 Spark on YARN模式安裝
2.4.1 安裝Hadoop叢集
2.4.2 格式化NameNode
2.4.3 啟動Hadoop叢集
2.4.4 設定Spark運行在YARN上
2.4.5 使用spark-submit提交程式碼
2.4.6 Spark on YARN模式程式碼運作流程
2.5 雲端服務模式Databricks介紹
2.5.1 Databricks基本概念
2.5.2 建立叢集
2.5.3 資料整合
2.5.4 建立筆記型電腦
2.5.5 運作案例
2.5.6 建立作業
2.5.7 運作作業
2.5.8其他類型的作業
2.6 本章小結
第3章資料分析基礎
3.1 什麼是資料分析
3.2 Python資料分析工具介紹
3.2.1 數學計算庫NumPy介紹
3.2.2 資料分析庫Pandas介紹
3.3 資料分析圖表介紹
3.4 Python資料視覺化工具介紹
3.4.1 Matplotlib介紹
3.4.2 Seaborn介紹
3.4.3 Pyecharts介紹
3.4.4 三種視覺化工具的對比
3.5 本章小結
第4章選擇合適的開發工具
4.1 使用Databricks探索資料
4.1.1 使用筆記本開發程式碼
4.1. 2【實戰案例】阿凡達電影評價分析
4.2 使用JupyterLab探索資料
4.2.1 創建虛擬環境
4.2.2 安裝JupyterLab
4.2.3 整合Spark引擎
4.2.4【實戰案例】二手房資料分析
4.3 使用PyCharm探索資料
4.3.1安裝PyCharm
4.3.2 安裝Python
4.3.3 建立PyCharm專案
4.3.4 PyCharm插件介紹
4.3.5【實戰案例】招募資訊資料分析
4.4 本章小結
第5章核心功能Spark Core
5.1 SparkContext介紹
5.2 RDD介紹5.3 RDD的特性介紹
5.3 RDD的特性
5.4 RDD的創建
5.4.1 透過並行化本地集合創建RDD
5.4.2 透過外部檔案系統資料建立RDD
5.4.3 透過已存在的RDD衍生新的RDD
5.5 RDD的算子
5.5.1 什麼是算子
5.5. 2 算子的分類
5.6 常用的Transformation算子
5.6.1 基本算子
5.6.2 二元組相關的算子
5.6.3 分區相關的算子
5.7 常用的Action算子
5.7.1 基本算子
5.7.2 Executor端執行的算子
5.8 RDD的持久化
5.8.1 快取
5.8.2 快取的特性
5.8.3 檢查點
5.8.4 快取和檢查點的比較
5.9 共享變數
5.9.1 廣播變數
5.9.2 累加器
5.10【實戰案例】共享單車租賃資料分析
5.10.1 資料整合
5.10.2 不同月份的租賃資料分析
5.10.3 不同時間的租賃資料分析
5.10.4 不同週期的租賃資料分析
5.10.5 不同維度的租賃資料分析
5.10.6 天氣對租賃需求的影響
5.10.7 溫度、風速對租賃需求的影響
5.11 本章小結
第6章結構化資料處理Spark SQL
6.1 Spark SQL概述
6.1.1 什麼是Spark SQL
6.1.2 Spark SQL的特性
6.2 Spark SQL的發展歷程
6.2.1 從HDFS到Hive
6.2.2 從Hive到Shark
6.2.3從Shark到Spark SQL
6.3 SparkSession介紹
6.4 DataFrame概述
6.4.1 什麼是DataFrame
6.4.2 DataFrame的組成
6.5 DataFrame的創建
6.5.1 透過RDD創建
6.5.2 透過Pandas的DataFrame創建
6.5.3 透過外部資料建立
6.6 DataD的基本操作
6.6.1 DSL語法風格
6.6.2 Spark Join策略介紹
6.6.3 SQL語法風格
6.7 DataFrame的函數操作
6.7.1 內建函數
6.7.2 視窗函數
6.7.3 自訂函數
6.8 DataFrame的資料清洗
6.8. 1 刪除重複行
6.8.2 缺失值的處理
6.9 DataFrame的持久化
6.10 DataFrame的資料寫出
6.10.1 寫出資料到檔案
6.10.2 寫出資料到資料庫
6.11【實戰案例】世界盃資料視覺化分析
6.11.1世界盃成績總結資訊分析
6.11.2 世界盃比賽資訊分析
6.12 本章小結
第7章整合Hive資料倉儲
7.1 Spark on Hive操作資料倉儲
7.1.1 安裝Hive
7.1.2 啟動元資料服務
7.1.3 配置Spark on Hive
7.1. 4 驗證Spark on Hive
7.2 使用MySQL取代Hive元資料服務
7.2.1 初始化MySQL
7.2.2 設定Spark on MySQL
7.2.3 驗證Spark on MySQL
7.3【實戰案例】基於Hive資料倉儲的電商資料分析
7.3.1 資料分析
7.3.1整合
7.3.2 爆款產品分析
7.3.3 月交易狀況分析
7.3.4 忠誠客戶分析
7.3.5 客戶區分析
7.4 本章小結
第8章Spark Streaming串流資料處理
8.1 串流資料處理概述
8.1.1 靜態資料和串流資料
8.1.2 批次運算與即時運算
8.1.3 串流運算
8.2 Spark Streaming概述
8.3 StreamingContext介紹
8.4 DStream介紹
8.5 DStream的創建
8.5.1 透過檔案建立
8.5.2 透過套接字創建
8.5.3 透過RDD佇列建立
8.6 DStream的Transformation操作
8.6.1 無狀態轉換
8.6.2 有狀態轉換
8.7 DStream的輸出操作
8.8 DStream的SQL操作
8.9 DStream的持久化
8.10【實戰案例】地震資料處理分析
8.10.1 資料整合
8.10 .2 震級大小分佈分析
8.10.3 震源深度分佈分析
8.10.4 震央座標分佈分析
8.10.5 中等地震分佈分析
8.11 本章小結
第9章Structured Streaming結構化流處理
9.1 程式設計模型
9.1.1 基本概念
9.1.2事件時間與延遲資料
9.1.3 容錯語意
9.2 串流DataFrame的建立
9.2.1 透過檔案來源建立
9.2.2 透過Socket來源建立
9.2.3 透過Rate來源建立
9.2.4 透過Kafka來源建立
9.3 串流DataFrame的操作
9.3.1 事件時間視窗
9.3.2 處理延遲資料與浮水印
9.3.3 連線操作
9.3.4 消除重複資料
9.3.5 不支援的操作
9.4 啟動串流處理查詢
9.4.1 輸出模式
9.4.2 輸出接收器
9.4 .3 觸發器
9.5 管理串流查詢
9.6 監控串流查詢
9.7【實戰案例】氣象資料處理分析
9.7.1 資料整合
9.7.2 雲量分佈分析
9.7.3 氣溫分佈分析
9.7.4 降水量分佈分析
9.8 本章小結
第10章Spark機器學習庫MLlib
10.1 機器學習介紹
10.1 .1 基本概念
10.1.2 評估指標
10.1.3 主要過程
10.1.4 以大數據為基礎的機器學習
10.2 MLlib介紹
10.3 資料預處理
10.3.1 缺失值處理
10.3.2 無量綱化處理
10.3.3 特徵資料處理
10.4特徵擷取與轉換
10.5 迴歸演算法介紹
10.5.1 線性迴歸演算法介紹
10.5.2 迴歸樹演算法介紹
10.6 分類演算法介紹
10.6.1 邏輯迴歸演算法介紹10.6.2
支援向量機演算法介紹
10.7聚類演算法介紹
10.7.1K- means演算法介紹
10.7.2高斯混合模型介紹
10.8【實戰案例】信用卡詐欺資料分析
10.8.1 資料預覽
10.8.2 機器學習訓練
10.9 本章小結
第11章綜合實戰:基於協同過濾的圖書推薦系統
11.1 項目介紹
11.2協同過濾演算法
11.2.1 協同過濾演算法介紹
11.2.2 相似度度量
11.2.3 交替最小二乘法
11.3 項目實作
11.3.1 資料整合11.3.2
資料分析
11.3.3 結果導出
11.4 資料視覺化
11.4.1 Flask框架介紹
11.4.2 建議結果展示
11.5 專案部署
11.6 本章小結
參考文獻