Spark數據分析:基於Python語言

[澳] 傑夫瑞·艾文(Jeffrey Aven) 著

買這商品的人也買了...

商品描述

本書介紹了使用Spark及其擴展、子項目,以及更廣的生態系統所需的所有知識,並使用常用而且直觀的PySpark開發環境提供了編程示例。本書專註於Python語言,廣大的數據從業人員、分析師和開發人員,即使幾乎沒有Hadoop或Spark經驗,也可以輕松上手。
本書包括從Spark基本編程到高級編程,再到Spark SQL和機器學習的廣泛內容。你會學到如何使用Spark高效管理各種形式的數據:流式數據、結構化數據、半結構化數據,還有非結構化數據。

本書內容
• 理解Spark在大數據和Hadoop生態圈中不斷發展的角色
• 使用各種部署模式創建Spark集群,並實現控制和優化
• 掌握Spark Core的RDD API編程技術,並使用高級的API平臺結構(包括共享變量、RDD存儲、分區等)擴展、加速和優化Spark執行
• 高效地將SQL和非關系型數據存儲與Spark集成
• 使用Spark Streaming和Apache Kafka處理流式數據和消息
• 使用SparkR和Spark MLlib實現預測建模