Spark機器學習:核心技術與實踐 Spark机器学习:核心技术与实践
亞歷克斯·特列斯
- 出版商: 機械工業
- 出版日期: 2018-06-05
- 定價: $414
- 售價: 7.9 折 $327
- 語言: 簡體中文
- 頁數: 229
- 裝訂: 平裝
- ISBN: 7111598466
- ISBN-13: 9787111598466
-
相關分類:
Spark、Machine Learning
- 此書翻譯自: Mastering Machine Learning with Spark
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
Effective Python 中文版 | 寫出良好 Python 程式的 59 個具體做法 (Effective Python: 59 Specific Ways to Write Better Python)$450$356 -
Spark 學習手冊 (Learning Spark: Lightning-Fast Big Data Analysis)$520$411 -
$505圖解Spark:核心技術與案例實戰 -
$301Spark與Hadoop大數據分析 (Big Data Analytics) -
$403AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications) -
$254亞馬遜 AWS 雲基礎與實戰 -
圖解區塊鏈$380$323 -
遊戲數據分析實戰$474$450 -
$352關聯數據:萬維網上的結構化數據 -
大數據時代一定要會的 SQL 商業資料分析術$680$578 -
實戰機器學習|使用 Spark$620$527 -
推薦系統實踐$419$398 -
Python 資料科學與人工智慧應用實務$650$553 -
$403AWS 雲計算實戰 (Amazon Web Services in Action) -
大數據的下一步:Spark MLlib機器學習實戰技巧大公開 (舊名: 比 Hadoop+Python 還強:Spark MLlib 機器學習實作)$520$442 -
大數據時代的資料庫處理:Spark SQL親自動手做$580$493 -
Spark 2.x 大數據分析與機器學習實戰$650$553 -
$454Python 3 反爬蟲原理與繞過實戰 -
$768AWS 高級網絡官方學習指南 (專項領域) (AWS Certified Advanced Networking Official Study Guide: Specialty Exam) -
$352RPA (流程自動化機器人) 入門 — 手把手教你應用 UiPath 自動化工作 -
$417財務報表分析與商業決策 -
$473Jupyter 金融應用 從入門到實踐 -
WebSecurity 網站滲透測試:Burp Suite 完全學習指南 (iT邦幫忙鐵人賽系列書)$600$468 -
人工智慧再進化:聯邦學習讓資料更安全穩固$880$695 -
$458數據中臺:賦能企業實時經營與商業創新
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書採用理論與大量實例相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習算法。通過這些示例和Spark在各種企業級系統中的應用,幫助讀者解鎖Spark機器學習算法的復雜性,通過數據分析產生有價值的數據洞察力。
作者簡介
About the Authors關於作者
Alex Tellez是一名終身的數據黑客/愛好者,對數據科學及其在商業問題上的應用充滿了激情。他在多個行業擁有豐富的經驗,包括銀行業、醫療保健、在線約會、人力資源和在線遊戲。Alex還在各種人工智能/機器學習會議上進行過多次演講,同時也在大學講授關於神經網絡的課程。閒暇時間,Alex喜歡和家人在一起,騎自行車!
首先,我要感謝Michal與我一起編寫本書。同樣作為的機器學習(Machine Learning,以下簡稱ML)愛好者、自行車愛好者、跑者和父親,在一年來共同努力的過程中,我們對彼此有了更深的瞭解。換句話說,沒有Michal的支持和鼓勵,本書是不可能完成的。
接下來,我要感謝我的媽媽、爸爸和哥哥Andres,從我出生天直到現在的每一步,你們都陪伴在我的周圍。毋庸置疑,我的哥哥仍會是我的英雄,是我永遠仰望的人,是我的指路燈。當然,還要感謝我美麗的妻子Denise和女兒Miya,在每個夜晚和周末給予我寫作上的關心和支持。我無法描述你們對我而言意味著多少,你們是我保持持續創作的靈感和動力。對我的女兒Miya,我的希望是,有一天當你拿起這本書時,會意識到你的老爸並不像看起來那麼傻。
後,我也要感謝你——讀者,感謝你對這個令人興奮的領域以及難以置信的技術感興趣。無論你是一名經驗豐富的ML專家,還是希望立足的新人,你都會找到適合自己的內容,我希望你能像Michal和我一樣,從本書中獲得很多。
Max Pumperla是一名數據科學家和工程師,專註於深度學習及其應用。他目前在Skymind擔任深度學習工程師,並且是aetros.com的聯合創始人。Max是幾個Python軟件包的作者和維護者,包括elephas,一個使用Spark的分佈式深度學習庫。他的開源足跡包括對許多流行的機器學習庫的貢獻,如keras、deeplearning4j和hyperopt。他擁有漢堡大學的代數幾何博士學位。
Michal Malohlava是Sparkling Water的創建者、極客和開發者,Java、Linux、編程語言愛好者,擁有10年以上的軟件開發經驗。他於2012年在布拉格的查爾斯大學獲得博士學位,並在普渡大學攻讀博士後。
在學習期間,他關註利用模型驅動方法和領域特定語言構建分佈式、嵌入式、實時和模塊化系統,參與了各種系統的設計和開發,包括SOFA和分形組件系統以及jPapabench控制系統。
現在,他的主要興趣是大數據計算。他參與了高級大數據計算平臺H2O的開發,並將其嵌入到Spark引擎中作為Sparkling Water項目發布。
目錄大綱
前言
第1章大規模機器學習和Spark入門1
1.1數據科學2
1.2數據科學家:21世紀最炫酷的職業2
1.2.1數據科學家的一天3
1.2.2大數據處理4
1.2.3分佈式環境下的機器學習算法4
1.2.4將數據拆分到多臺機器6
1.2.5從Hadoop MapReduce到Spark 6
1.2.6什麼是Databricks 7
1.2.7 Spark包含的內容8
1.3 H2O.ai簡介8
1.4 H2O和Spark MLlib的區別10
1.5數據整理10
1.6數據科學:一個疊代過程11
1.7小結11
第2章探索暗物質:希格斯玻色子12
2.1 Ⅰ型錯誤與Ⅱ型錯誤12
2.1.1尋找希格斯玻色子13
2.1.2 LHC和數據的創建13
2.1.3希格斯玻色子背後的理論14
2.1.4測量希格斯玻色子14
2.1.5數據集14
2.2啟動Spark與加載數據15
2.2.1標記點向量22
2.2.2創建訓練和測試集合24
2.2.3第一個模型:決策樹26
2.2.4下一個模型:集合樹32
2.2.5最後一個模型:H2O深度學習37
2.2. 6構建一個3層DNN 39
2.3小結45
第3章多元分類的集成方法46
3.1數據47
3.2模型目標48
3.2.1挑戰48
3.2.2機器學習工作流程48
3.2.3使用隨機森林建模61
3.3小結78
第4章使用NLP和Spark Streaming預測電影評論80
4.1 NLP簡介81
4.2數據集82
4.3特徵提取85
4.3.1特徵提取方法:詞袋模型85
4.3.2文本標記86
4.4特徵化——特徵哈希89
4.5我們來做一些模型訓練吧92
4.5.1 Spark決策樹模型93
4.5.2 Spark樸素貝葉斯模型94
4.5.3 Spark隨機森林模型95
4.5.4 Spark GBM模型96
4.5.5超級學習器模型97
4.6超級學習器97
4.6.1集合所有的轉換101
4.6.2使用超級學習器模型105
4.7小結105
第5章word2vec預測和聚類107
5.1詞向量的動機108
5.2 word2vec解釋108
5.2.1什麼是單詞向量108
5.2.2 CBOW模型110
5.2.3 skip-gram模型111
5.2.4玩轉詞彙向量112
5.2.5餘弦相似性113
5.3 doc2vec解釋113
5.3.1分佈式內存模型113
5.3.2分佈式詞袋模型114
5.4應用word2vec並用向量探索數據116
5.5創建文檔向量118
5.6監督學習任務119
5.7小結123
第6章從點擊流數據中抽取模式125
6.1頻繁模式挖掘126
6.2使用Spark MLlib進行模式挖掘130
6.2.1使用FP-growth進行頻繁模式挖掘131
6.2.2關聯規則挖掘136
6.2.3使用prefix span進行序列模式挖掘138
6.2.4在MSNBC點擊流數據上進行模式挖掘141
6.3部署模式挖掘應用147
6.4小結154
第7章使用GraphX進行圖分析155
7.1基本的圖理論156
7.1.1圖156
7.1.2有向和無向圖156
7.1.3階和度157
7.1.4有向無環圖158
7.1 .5連通分量159
7.1.6樹160
7.1.7多重圖160
7.1.8屬性圖161
7.2 GraphX分佈式圖計算引擎162
7.2.1 GraphX中圖的表示163
7.2.2圖的特性和操作165
7.2. 3構建和加載圖170
7.2.4使用Gephi可視化圖結構172
7.2.5圖計算進階178
7.2.6 GraphFrame 181
7.3圖算法及其應用183
7.3.1聚類183
7.3.2頂點重要性185
7.4 GraphX在上下文中188
7.5小結189
第8章Lending Club借貸預測190
8.1動機190
8.1.1目標191
8.1.2數據192
8.1.3數據字典192
8.2環境準備193
8.3數據加載193
8.4探索——數據分析194
8.4.1基本清理194
8.4.2預測目標200
8.4.3使用模型評分221
8.4.4模型部署224
8.5小結229
