Python + Spark 2.0 + Hadoop 機器學習與大數據分析實戰
林大貴
- 出版商: 博碩
- 出版日期: 2016-10-03
- 定價: $680
- 售價: 7.8 折 $530
- 語言: 繁體中文
- 頁數: 576
- ISBN: 9864341537
- ISBN-13: 9789864341535
-
相關分類:
Spark、Hadoop、Machine Learning、Python、Data-visualization
已絕版
買這商品的人也買了...
-
深入淺出設計模式 (Head First Design Patterns)$880$695 -
大話設計模式$620$490 -
精通 Python|運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)$780$616 -
完整學會 Git, GitHub, Git Server 的24堂課$360$284 -
Python 程式設計實務-從初學到活用 Python 開發技巧的16堂課$560$437 -
Android 高效入門>>深度學習-使用 Android Studio 2 開發 Android 6.0 APP
$650$507 -
讓響應式(RWD)網頁設計變簡單:Bootstrap開發速成 (附135分鐘專題影音教學)$420$332 -
Python 機器學習 (Python Machine Learning)$580$452 -
Spark 學習手冊 (Learning Spark: Lightning-Fast Big Data Analysis)$520$442 -
寫給 PM、RD 與設計師看的設計需求分析─使用者想要的應用程式都是這樣打造出來的 (Designing the Requirements: Building Applications that the User Wants and Needs)$580$458 -
Hadoop 技術手冊, 4/e (Hadoop: The Definitive Guide, 4/e)$980$774 -
網站擷取|使用 Python (Web Scraping with Python: Collecting Data from the Modern Web)$580$458 -
Data Science from Scratch|用 Python 學資料科學 (中文版)(Data Science from Scratch: First Principles with Python)$580$458 -
不止是測試:Python 網路爬蟲王者 Selenium$560$476 -
iOS 10 App 程式設計實力超進化實戰攻略 : 知名 iOS教學部落格 AppCoda 作家親授實作關鍵技巧讓你不NG$720$562 -
Python 初學特訓班 (附250分鐘影音教學/範例程式)$480$379 -
今天不學機器學習,明天就被機器取代:從 Python 入手+演算法$590$502 -
高效率資料分析|使用 Python (Foundations for Analytics with Python)$580$458 -
超圖解 Arduino 互動設計入門, 3/e$680$578 -
Python 自動化的樂趣|搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)$500$425 -
深度學習快速入門 — 使用 TensorFlow (Getting started with TensorFlow)
$360$281 -
演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)$580$458 -
TensorFlow + Keras 深度學習人工智慧實務應用$590$460 -
寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)$390$308 -
Deep Learning|用 Python 進行深度學習的基礎理論實作$580$458
商品描述
<內容簡介>
◆本書淺顯易懂的原理說明
◆Step by Step實機操作
◆範例程式詳細解說
◆大幅降低機器學習與大數據技術的學習門檻
機器學習正熱門
機 器學習是近20多年興起的多領域學科,機器學習演算法可從大量數據中建立模型,並利用模型對未知數據進行預測。近年來各大公司google、 facebook、microsoft、IBM…等,全力投入機器學習研究與應用,以Google為例,Google早已將機器學習,運用在垃圾郵件判 斷、自動回覆、照片分類與搜尋、翻譯、語音辨識等功能。在你在不知不覺中,機器學習已經讓日常生活更便利。
「大數據」與「機器學習」相輔相成
大 數據的特性: 大量資料、多樣化、速度快。因此如何從大量資料中擷取出有用的資訊,是大數據的主要課題。機器學習需要大量資料進行訓練,並且訓練過程需大量運算。正好大 數據的興起帶來大量資料,以及可儲存大量數據的分散式儲存技術,例如:Hadoop HDFS、NoSQL..。還有分散式運算可進行大量運算,例如Spark 基於記憶體內的分散式運算框架,可以大幅提升效能。
Python與Spark與Hadoop的完美結合
本 書的主題是Python+Spark+Hadoop機器學習與大數據分析:使用Python開發Spark應用程式,具有多重好處,既可以享有 Python語言特性所帶來的好處:程式碼簡明、易學習、高生產力的特質。再加上Spark基於記憶體內的分散式運算框架,非常適合需多次重覆運算的機器 學習演算法,可以大幅提升效能。Spark可輕易讀取Hadoop分散式儲存技術HDFS。Spark也可以在Hadoop 新MapReduce架構YARN執行。
Python與Spark機器學習與資料視覺化
Python資料分析的相 關模組如NumPy、Matplotlib、Pandas、Scikit-learn,讓Python成為資料分析主要語言之一。使用Python開發 Spark機器學習應用時,你仍然可以繼續使用這些模組,這對於Python開發者帶來很大的方便,例如:你可以使用Spark ML Pipeline機器學習、訓練、預測。並且可以將Spark DataFrames轉換為Pandas DataFrame。轉換後你就可以運用Python豐富的資料視覺化套件,例如matplotlib、Bokeh…等,進行資料視覺化。
本書特色:實機操作建置Spark+Hadoop機器學習與大數據平台
一般人學習大數據的困難是,沒有多台機器建立分散式系統,但是透過本書介紹使用Virtual Box虛擬機器的方法,就能在自家電腦演練建立Hadoop叢集,並且建立Python Spark機器學習開發環境。
本書特色:以實務範例程式學會Python+Spark機器學習與大數據
以 大數據實務案例MovieLens(電影喜好推薦引擎)、StumbleUpon (網頁二元分類)、Covtype(森林覆蓋多元分類),BikeSharing(類Ubike租借數量迴歸分析),介紹如何使用Python Spark運用機器學習演算法:決策樹、邏輯迴歸、支持向量機器SVM、單純貝氏。進行資料處理、訓練、建立模型、訓練驗證找出最佳模型、預測結果。