Spark 2.x 大數據分析與機器學習實戰

Romeo Kienzler 賴裕文

立即出貨 (庫存 > 10)

  • 9789863125532 b1
  • 9789863125532 b2
  • 9789863125532 b3
  • 9789863125532 b4
  • 9789863125532 b5
  • 9789863125532 b6
  • 9789863125532 b7
  • 9789863125532 b8
  • 9789863125532 b9
  • 9789863125532 b10
9789863125532 b1

買這商品的人也買了...

商品描述

本書獲台灣 IBM 推薦

身處於資訊爆炸的時代,數據無時無刻不間斷產生,大型購物網站的會員資料、工廠大規模的感測器數據…等等,當要處理的資料規模達到大數據等級時,就不再是單機的 R 或 Python 可以應付得來的。

Apache Spark 是一套分散式和高擴展性的資料分析系統,在大數據分析乃至於計器學習的應用上佔有一席之地。為了因應資料量爆炸性的成長,Spark 也不斷擴充其功能模組,提供更具效率的資料分析與處理流程,也因此造成許多開發者對於 Spark 各個功能模組的用法與差異並不了解,對於新的功能模組也不得其門而入。

徹底了解Apache Spark 2.x中的新功能,建構全自動化的機器學習流程

本書由標準 Apache Spark 模組開始,將一一介紹記憶體管理、二進位處理、快取感知計算和程式碼生成,加快在 Spark 上的執行效率。並整合整合 H2O 和 Deeplearning4j,進行目前當紅的機器學習應用,以及運用 Jupyter 筆記本、Zeppelin、Docker 和 Kubernetes 在雲端架構上使用 Spark。書中使用支援度高且運算快的原生語言 Scala 來開發,並深入探討 Apache Spark 2.x 的細節以及提供實際的範例作為教學如:從 MQTT 接收 IoT 洗衣機的串流數據、道路安全數據中使用機器學習來做分類、使用深度學習來處理軸承的震動感測器數據的異常偵測…等等。

而最重要的,本書作者 Romeo Kienzler 做為 IBM Watson IoT worldwide 團隊的首席資料科學家,期許以業界的觀點,透過理論與實作帶領讀者進入大數據與機器學習的世界。你還將徹底了解 Apache Spark 2.x 中的新功能,特別是使用 SparkML 建構全自動化的機器學習流程,讓你對 Spark 有完全不同的全新認識。 
本書特色 : 
  ● 來自 IBM Watson IoT worldwide 團隊首席資料科學家的業界親傳
● 處理各種串流:TCP、Flume、Kafka、Twitter、MQTT
● Spark 的強力夥伴-機器學習函式庫:MLlib、SparkML、SystemML
● 最熱門的深度學習:DeepLearning4j、H2O
● Spark 的雲端部署:Docker、Kubernetes、 IBM DataScience Experience 

作者簡介

   Romeo Kienzler 是 IBM Watson IoT 全球團隊的首席資料科學家,幫助客戶大規模地應用先進的機器學習在其 IoT 感測器數據。

他擁有蘇黎世瑞士聯邦理工學院的計算機科學碩士學位,專攻資訊系統、生物資訊和應用統計學,目前的研究重點是 Apache Spark 上可擴展的機器學習,也是各種開源專案的貢獻者。

作者目前在瑞士伯恩應用科技大學擔任副教授,開設人工智慧課程,同時也是 IBM 技術專家委員會和 IBM Academy of Technology (IBM 主要的智囊團) 的成員。 

目錄大綱

01 初嘗 Apache Spark V2
02 Apache Spark SQL
03 Catalyst 優化器
04 Project Tungsten
05 Apache Spark Streaming
06 結構化串流處理 (Structured Streaming)
07 Apache Spark MLlib
08 Apache SparkML
09 Apache SystemML
10 使用 DeepLearning4j 和 H2O 在 Apache Spark 上做深度學習
11 Apache Spark GraphX
12 Apache Spark GraphFrames
13 在 IBM DataScience Experience 上透過 Jupyter Notebooks 使用 Apache Spark
14 在 Kubernetes 之上運行 Apache Spark