Spark大資料分析實戰 Spark大数据分析实战

高彥傑, 倪亞宇

  • 出版商: 機械工業
  • 出版日期: 2016-01-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 213
  • 裝訂: 平裝
  • ISBN: 7111523075
  • ISBN-13: 9787111523079
  • 相關分類: SparkData Science
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

本書一共11章:其中第1~3章,主要介紹了Spark的基本概念、編程模型、開發與部署的方法;第4~11章,詳細詳解了熱點新聞分析系統、基於雲平臺的日誌數據分析、情感分析系統、搜索引擎鏈接分析系統等的應用與算法等核心知識點。

 

作者簡介

高彥傑,畢業於中國人民大學,就職於微軟亞洲研究院。開源技術愛好者,對spark及其他開源大數據系統與技術有較為深入的認識和研究,實踐經驗豐富。
較早接觸並使用spark,對spark應用開發、spark系統的運維和測試比較熟悉.深度閱讀了spark的源代碼,瞭解spark的運行機制,擅長spark的查詢優化。 曾著有暢銷書《spark大數據處理:技術、應用與性能優化》。

倪亞宇,清華大學自動化系在讀博士研究生,曾於微軟亞洲研究院、IBM研究院實習。對大規模的推薦系統和機器學習算法有較為深入的研究和豐富的實踐經驗。

目錄大綱

前言
第1章Spark簡介1
1.1初識Spark 1
1.2Spark生態系統BDAS 3
1.3Spark架構與運行邏輯4
1.4彈性分佈式數據集6
1.4.1RDD簡介6
1.4.2RDD算子分類8
1.5本章小結17
 

第2章Spark開發與環境配置18
2.1Spark應用開發環境配置18
2.1.1使用Intellij開發Spark
程序18
2.1.2使用SparkShell進行交互式數據分析23
2.2遠程調試Spark程序24
2.3Spark編譯26
2.4配置Spark源碼閱讀環境29
2.5本章小結29
 

第3章BDAS簡介30
3.1SQL on Spark 30
3.1.1為什麼使用Spark SQL 31
3.1.2Spark SQL架構分析32
3.2Spark Streaming 35
3.2.1Spark Streaming簡介35
3.2.2Spark Streaming架構38
3.2.3Spark Streaming原理剖析38
3.3GraphX ​​45
3.3.1GraphX ​​簡介45
3.3.2GraphX ​​的使用簡介45
3.3.3GraphX ​​體系結構48
3.4MLlib 50
3.4.1MLlib簡介50
3.4.2MLlib中的聚類和分類52
3.5本章小結57
 

第4章Lamda架構日誌分析流水線58
4.1日誌分析概述58
4.2日誌分析指標61
4.3Lamda架構62
4.4構建日誌分析數據流水線64
4.4.1用Flume進行日誌採集64
4.4.2用Kafka將日誌匯總68
4.4.3用Spark Streaming進行實時日誌分析70
4.4.4Spark SQL離線日誌分析75
4.4.5用Flask將日誌KPI可視化78
4.5本章小結81
 

第5章基於雲平臺和用戶日誌的推薦系統82
5.1Azure雲平臺簡介82
5.1.1Azure網站模型83
5.1.2Azure數據存儲84
5.1.3Azure Queue消息傳遞84
5.2系統架構85
5.3構建Node.js應用86
5.3.1創建Azure Web應用87
5.3.2構建本地Node.js網站90
5.3.3發布應用到雲平臺90
5.4數據收集與預處理91
5.4.1通過JS收集用戶行為日誌92
5.4.2用戶實時行為回傳到Azure Queue 94
5.5Spark Streaming實時分析用戶日誌96
5.5.1構建Azure Queue的Spark Streaming Receiver 96
5.5.2Spark Streaming實時處理Azure Queue日誌97
5.5.3Spark Streaming數據存儲於Azure Table 98
5.6MLlib離線訓練模型99
5.6.1加載訓練數據99
5.6.2使用rating RDD訓練ALS模型100
5.6.3使用ALS模型進行電影推薦101
5.6.4評估模型的均方差101
5.7本章小結102
 

第6章Twitter情感分析103
6.1系統架構103
6.2Twitter數據收集104
6.2.1設置104
6.2.2Spark Streaming接收並輸出Tweet 109
6.3數據預處理與Cassandra存儲111
6.3.1添加SBT依賴111
6.3.2創建Cassandra Schema 112
6.3.3數據存儲於Cassandra 112
6.4Spark Streaming熱點Twitter分析113
6.5Spark Streaming在線情感分析115
6.6Spark SQL進行Twitter分析118
6.6 .1讀取Cassandra數據118
6.6.2查看JSON數據模式118
6.6.3Spark SQL分析Twitter 119
6.7Twitter可視化123
6.8本章小結125
 

第7章熱點新聞分析系統126
7.1新聞數據分析126
7.2系統架構126
7.3爬蟲抓取網絡信息127
7.3.1Scrapy簡介127
7.3.2創建基於Scrapy的新聞爬蟲128
7.3.3爬蟲分佈式化133
7.4新聞文本數據預處理134
7.5新聞聚類135
7.5.1數據轉換為向量(向量空間模型VSM) 135
7.5.2新聞聚類136
7.5.3詞向量同義詞查詢138
7.5.4實時熱點新聞分析138
7.6Spark Elastic Search構建全文檢索引擎139
7.6.1部署Elastic Search 139
7.6.2用Elastic Search索引MongoDB數據141
7.6.3通過Elastic Search檢索數據143
7.7本章小結145
 

第8章構建分佈式的協同過濾推薦系統146
8.1推薦系統簡介146
8.2協同過濾介紹147
8.2.1基於用戶的協同過濾算法User—based CF 148
8.2.2基於項目的協同過濾算法Item—based CF 149
8.2.3基於模型的協同過濾推薦Model—based CF 150
8.3基於Spark的矩陣運算實現協同過濾算法152
8.3.1Spark中的矩陣類型152
8.3. 2Spark中的矩陣運算153
8.3.3實現User—based協同過濾的示例153
8.3.4實現Item—based協同過濾的示例154
8.3.5基於奇異值分解實現Model—based協同過濾的示例155
8.4基於Spark的MLlib實現協同過濾算法155
8.4.1MLlib的推薦算法工具155
8.4.2MLlib協同過濾推薦示例156
8.5案例:使用MLlib協同過濾實現電影推薦157
8.5.1MovieLens數據集157
8.5.2確定**的協同過濾模型參數158
8.5.3利用**模型進行電影推薦160
8.6本章小結161
 

第9章基於Spark的社交網絡分析162
9.1社交網絡介紹162
9.1.1社交網絡的類型162
9.1.2社交網絡的相關概念163
9.2社交網絡中社團挖掘算法164
9.2.1聚類分析和K均值算法簡介165
9.2.2社團挖掘的衡量指標165
9.2.3基於譜聚類的社團挖掘算法166
9.3Spark中的K均值算法168
9.3.1Spark中與K均值有關的對象和方法168
9.3.2Spark下K均值算法示例168
9.4案例:基於Spark的Facebook社團挖掘169
9.4.1SNAP社交網絡數據集介紹169
9.4.2基於Spark的社團挖掘實現170
9.5社交網絡中的鏈路預測算法172
9.5.1分類學習簡介172
9.5.2分類器的評價指標173
9.5.3基於Logistic回歸的鏈路預測算法174
9.6Spark MLlib中的Logistic回歸174
9.6.1分類器相關對象174
9.6.2模型驗證對象175
9.6.3基於Spark的Logistic回歸示例175
9.7案例:基於Spark的鏈路預測算法177
9.7.1SNAP符號社交網絡Epinions數據集177
9.7.2基於Spark的鏈路預測算法177
9.8本章小結179
 

第10章基於Spark的大規模新聞主題分析180
10.1主題模型簡介180
10.2主題模型LDA 181
10.2.1LDA模型介紹181
10.2.2LDA的訓練算法183
10.3Spark中的LDA模型185
10.3.1MLlib對LDA的支持185
10.3.2Spark中LDA模型訓練示例186
10.4案例:Newsgroups新聞的主題分析189
10.4.1Newsgroups數據集介紹190
10.4.2交叉驗證估計新聞的主題個數190
10.4.3基於主題模型的文本聚類算法193
10.4.4基於主題模型的文本分類算法195
10.5本章小結196
 

第11章構建分佈式的搜索引擎197
11.1搜索引擎簡介197
11.2搜索排序概述198
11.3查詢無關模型PageRank 199
11.4基於Spark的分佈式PageRank實現200
11.4.1PageRank的MapReduce實現200
11.4.2Spark的分佈式圖模型GraphX ​​203
11.4.3基於GraphX ​​的PageRank實現203
11.5案例:GoogleWeb Graph的PageRank計算204
11.6查詢相關模型Ranking SVM 206
11.7Spark中支持向量機的實現208
11.7.1Spark中的支持向量機模型208
11.7.2使用Spark測試數據演示支持向量機的訓練209
11.8案例:基於MSLR數據集的查詢排序211
11.8.1Microsoft Learning to Rank數據集介紹211
11.8.2基於Spark的Ranking SVM實現212
11.9本章小結213