買這商品的人也買了...
-
$301Spark大數據實例開發教程
-
$750$675 -
$311Spark核心技術與高級應用
-
$505深入理解Spark:核心思想與源碼分析
-
$347Apache Spark源碼剖析
-
$383Scala 並發編程
-
$245Scala 學習手冊
-
$352Scala 函數式編程
-
$556Scala 程式設計, 2/e (Programming Scala: Scalability = Functional Programming + Objects, 2/e)
-
$301深入理解 Scala
-
$520$411 -
$420$332 -
$520$411 -
$301Spark內核機制解析及性能調優
-
$281用 Mesos 框架構建分佈式應用 (Building applications on Mesos)
-
$250命令行中的數據科學 (Data Science at the Command Line:Facing the Future with Time-Tested Tools)
-
$199Spark Streaming:實時流處理入門與精通 (Learning real-time processing with Spark Streaming)
-
$551快學 Scala, 2/e (Scala for the impatient, 2/e)
-
$490$417 -
$301企業大數據處理:Spark、Druid、Flume與Kafka應用實踐(BigData Processing with Spark,Druid,Flume and Kafka)
-
$480$408 -
$734Scala 編程, 3/e (Programming in Scala : Updated for Scala 2.12, 3/e)
-
$250PySpark 實戰指南 : 利用 Python 和 Spark 構建數據密集型應用並規模化部署 (Learning PySpark)
-
$560$437 -
$600$468
相關主題
商品描述
<內容簡介>
Spark是一個基於內存計算的開源集群計算系統,它非常小巧玲瓏,讓數據分析更加快速,已逐漸成為新一代大數據處理平臺中的佼佼者。
本書內容分為12章,從認識Apache Spark開始講解,陸續介紹了Spark的使用、外部數據源、Spark SQL、Spark Streaming、機器學習、監督學習中的回歸和分類、無監督學習、推薦系統、圖像處理、優化及調優等內容。
本書適合大數據領域的技術人員,可以幫助他們更好地洞悉大數據,本書也適合想要學習Spark進行大數據處理的人員,它將是一本絕佳的參考教程。
<章節目錄>
第1章開始使用Apache Spark 1
1.1簡介1
1.2使用二進製文件安裝Spark 2
1.3通過Maven構建Spark源碼5
1.4在Amazon EC2上部署Spark 7
1.5在集群上以獨立模式部署
Spark 13
1.6在集群上使用Mesos部署Spark 18
1.7在集群上使用YARN部署19
1.8使用Tachyon作為堆外存儲層22
第2章使用Spark開發應用27
2.1簡介27
2.2探索Spark shell 27
2.3在Eclipse中使用Maven開發Spark應用29
2.4在Eclipse中使用SBT開發Spark應用33
2.5在Intellij IDEA中使用Maven開發Spark應用34
2.6在Intellij IDEA中使用SBT開發Spark應用36
第3章外部數據源38
3.1簡介38
3.2從本地文件系統加載數據39
3.3從HDFS加載數據40
3.4從HDFS加載自定義輸入格式的數據45
3.5從Amazon S3加載數據46
3.6從Apache Cassandra加載數據49
3.7從關係型數據庫加載數據54
第4章Spark SQL 57
4.1簡介57
4.2理解Catalyst優化器60
4.3創建HiveContext 63
4.4使用case類生成數據格式66
4.5編程指定數據格式67
4.6使用Parquet格式加載及存儲數據69
4.7使用JSON格式加載及存儲數據73
4.8從關係型數據庫加載及存儲數據75
4.9從任意數據源加載及存儲數據78
第5章Spark Streaming 80
5.1簡介80
5.2使用Streaming統計字數82
5.3 Twitter流數據處理84
5.4 Kafka流數據處理88
第6章機器學習——MLlib 94
6.1簡介94
6.2創建向量95
6.3創建向量標籤97
6.4創建矩陣99
6.5計算概述統計量101
6.6計算相關性102
6.7進行假設檢驗104
6.8使用ML創建機器學習
流水線106
第7章監督學習之回歸——MLlib 109
7.1簡介109
7.2使用線性回歸110
7.3理解代價函數112
7.4使用Lasso線性回歸116
7.5使用嶺回歸117
第8章監督學習之分類——MLlib 119
8.1簡介119
8.2邏輯回歸分類119
8.3支持向量機二元分類124
8.4決策樹分類127
8.5隨機森林分類134
8.6梯度提升樹(GBTs)分類139
8.7樸素貝葉斯分類140
第9章無監督學習——MLlib 143
9.1簡介143
9.2使用k-means聚類144
9.3主成分分析的降維149
9.4奇異值分解降維155
第10章推薦系統159
10.1簡介159
10.2顯性反饋的協同過濾161
10.3隱性反饋的協同過濾164
第11章圖像處理——GraphX 169
11.1簡介169
11.2基本圖像運算170
11.3使用PageRank 171
11.4查找連通分量174
11.5相鄰聚合實現177
第12章優化及調優180
12.1簡介180
12.2內存優化183
12.3使用壓縮提升性能185
12.4使用序列化提升性能186
12.5優化垃圾回收187
12.6優化並行度的級別187
12.7理解未來的優化——Tungsten
項目188