Scala機器學習(Mastering Scala Machine Learning) Scala机器学习 (大数据技术丛书)
亞歷克斯·科茲洛夫(Alex Kozlov)
- 出版商: 機械工業
- 出版日期: 2017-07-01
- 定價: $354
- 售價: 7.9 折 $280
- 語言: 簡體中文
- 頁數: 203
- ISBN: 7111572157
- ISBN-13: 9787111572152
-
相關分類:
Spark、Python、Functional-programming
- 此書翻譯自: Mastering Scala Machine Learning (Paperback)
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
淘寶網 CEO 馬雲談商錄$350$315 -
$474KVM 虛擬化技術實戰與原理解析 -
$414Web 之困-現代 Web 應用安全指南 (The Tangled Web: A Guide to Securing Modern Web Applications) -
$281Python 黑帽子 (Black Hat Python: Python Programming for Hackers and Pentesters) -
$354基於 MVC 的 JavaScript Web 富應用開發 (JavaScript Web Applications) -
Git 學習指南$359$341 -
$199挑戰編程技能 57道程序員功力測試題 (Exercises for Programmers:57 Challenges to Develop Your Coding Skills) -
$374OpenStack 實戰 (OpenStack in Action) -
$422JavaScript開發框架權威指南 (JavaScript Frameworks for Modern Web Dev) -
$301Python 數據挖掘:概念、方法與實踐 -
$301機器學習系統設計 : Python 語言實現 (Designing Machine Learning Systems with Python) -
$422達人迷:JavaScript趣味編程15例 ( JavaScript for Kids ) -
$352白話深度學習與 TensorFlow -
$301Python編程與問題求解 -
$250Scala 謎題 -
$266機器學習 : Python 實踐 -
$403看透 JavaScript : 原理、方法與實踐 -
$352軟件性能測試學習筆記之 LoadRunner 實戰 -
$352關聯數據:萬維網上的結構化數據 -
$505Python 物理學高效計算 (Effective Computation in Physics) -
$301數據科學導論:Python語言實現(原書第2版) -
$185Hadoop深度學習 -
$301區塊鏈:新經濟藍圖及導讀 (精裝版) -
Database System Concepts, 7/e (Paperback)$4,410$4,190 -
Kaggle 競賽攻頂秘笈 -- 揭開 Grandmaster 的特徵工程心法,掌握制勝的關鍵技術$1,000$850
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
作者簡介
作者:(美國)亞歷克斯·科茲洛夫(Alex Kozlov)譯者:羅棻劉波
亞歷克斯·科茲洛夫(Alex Kozlov),是一名多學科的大數據科學家。自1991年來到矽谷起就創辦了幾家計算機和數據管理公司。期間,他師從Daphne Koller和John Hennessy兩位教授,於1998年獲得斯坦福大學博士學位。他目前是企業安全初創公司E8 Security的首席解決方案架構師,曾在Cloudera、HP公司的HPLabs工作。
羅棻,重慶工商大學計算機科學與信息工程學院教師,主要從事計算機視覺、計算機算法的研究。同時對Scala編程感興趣。
劉波,重慶工商大學計算機科學與信息工程學院教師,主要從事機器學習理論、計算機視覺和最優化技術研究,同時愛好Hadoop和Spark平臺上的大數據分析,也對Linux平臺的編程和Oracle數據庫感興趣。
目錄大綱
譯者序
前言
第1章探索數據分析1
1.1Scala入門2
1.2去除分類字段的重複值2
1.3數值字段概述4
1.4基本抽樣、分層抽樣和一致抽樣5
1.5使用Scala和Spark的Note—book工作8
1.6相關性的基礎12
1.7總結14
第2章數據管道和建模15
2.1影響圖16
2.2序貫試驗和風險處理17
2.3探索與利用問題21
2.4不知之不知23
2.5數據驅動系統的基本組件23
2.5 .1數據收集24
2.5.2數據轉換層25
2.5.3數據分析與機器學習26
2.5.4UI組件26
2.5.5動作引擎28
2.5.6關聯引擎28
2.5.7監控28
2.6優化和交互28
2.7總結29
第3章使用Spark和MLlib30
3.1安裝Spark31
3.2理解Spark的架構32
3.2.1任務調度32
3.2.2Spark的組件35
3.2.3MQTT、ZeroMQ、Flume和Kafka36
3.2.4HDFS、Cassandra、S3和Tachyon37
3.2.5Mesos 、YARN和Standa—lone38
3.3應用38
3.3.1單詞計數38
3.3.2基於流的單詞計數41
3.3.3SparkSQL和數據框45
3.4機器學習庫46
3.4.1SparkR47
3.4.2圖算法:Graphx和Graph—Frames48
3.5Spark的性 調整48
3.6運行Hadoop的HDFS49
3.7總結54
第4章監督學習和無監督學習55
4.1記錄和監督學習55
4.1.1Iirs數據集56
4.1.2類標籤點57
4.1.3SVMWithSGD58
4.1.4logistic回歸60
4.1.5決策樹62
4.1.6bagging和boosting:集成學習方法66
4.2無監督學習66
4.3數據維度71
4.4總結73
第5章回歸和分類74
5.1回歸是什麼74
5.2連續空間和度量75
5.3線性回歸77
5.4logistic回歸81
5.5正則化83
5.6多元回歸84
5.7異方差84
5.8回歸樹85
5.9分類的度量87
5.10多分類問題87
5.11感知機87
5.12泛化誤差和過擬合90
5.13總結90
第6章使用非結構化數據91
6.1嵌套數據92
6.2其他序列化格式100
6.3Hive和Impala102
6.4會話化104
6.5使用特質109
6.6使用模式匹配110
6.7非結構化數據的其他用途113
6.8概率結構113
6.9投影113
6.10總結113
第7章使用圖算法115
7.1圖簡介115
7.2SBT116
7.3Scala的圖項目119
7.3.1增加節點和邊121
7.3.2圖約束123
7.3.3JSON124
7.4GraphX126
7.4.1誰收到電子郵 130
7.4.2連通分量131
7.4.3三角形計數132
7.4.4強連通分量132
7.4.5PageRank133
7.4.6SVD++134
7.5總結138
第8章Scala與R和Python的集成139
8.1R的集成140
8.1. 1R和SparkR的相關配置140
8.1.2數據框144
8.1.3線性模型150
8.1.4廣義線性模型152
8.1.5在SparkR中讀取JSON文件156
8.1.6在SparkR中寫入Parquet文件157
8.1. 7從R調用Scala158
8.2Python的集成161
8.2.1安裝Python161
8.2.2PySpark162
8.2.3從Java/Scala調用Python163
8.3總結167
第9章Scala中的NLP169
9.1文本分析流程170
9.2Spark的MLlib庫177
9.2. 1TF—IDF177
9.2.2LDA178
9.3分詞、標註和分塊185
9.4POS標記186
9.5使用word2vec尋找詞關係189
9.6總結192
第10章高級模型監控193
10.1系統監控194
10.2進程監控195
10.3模型監控201
10.3.1隨時間變化的性能202
10.3.2模型停用標準202
10.3.3A/B測試202
10.4總結202
譯者序
前言
第1章探索數據分析1
1.1Scala入門2
1.2去除分類字段的重複值2
1.3數值字段概述4
1.4基本抽樣、分層抽樣和一致抽樣5
1.5使用Scala和Spark的Note—book工作8
1.6相關性的基礎12
1.7總結14
第2章數據管道和建模15
2.1影響圖16
2.2序貫試驗和風險處理17
2.3探索與利用問題21
2.4不知之不知23
2.5數據驅動系統的基本組件23
2.5 .1數據收集24
2.5.2數據轉換層25
2.5.3數據分析與機器學習26
2.5.4UI組件26
2.5.5動作引擎28
2.5.6關聯引擎28
2.5.7監控28
2.6優化和交互28
2.7總結29
第3章使用Spark和MLlib30
3.1安裝Spark31
3.2理解Spark的架構32
3.2.1任務調度32
3.2.2Spark的組件35
3.2.3MQTT、ZeroMQ、Flume和Kafka36
3.2.4HDFS、Cassandra、S3和Tachyon37
3.2.5Mesos 、YARN和Standa—lone38
3.3應用38
3.3.1單詞計數38
3.3.2基於流的單詞計數41
3.3.3SparkSQL和數據框45
3.4機器學習庫46
3.4.1SparkR47
3.4.2圖算法:Graphx和Graph—Frames48
3.5Spark的性 調整48
3.6運行Hadoop的HDFS49
3.7總結54
第4章監督學習和無監督學習55
4.1記錄和監督學習55
4.1.1Iirs數據集56
4.1.2類標籤點57
4.1.3SVMWithSGD58
4.1.4logistic回歸60
4.1.5決策樹62
4.1.6bagging和boosting:集成學習方法66
4.2無監督學習66
4.3數據維度71
4.4總結73
第5章回歸和分類74
5.1回歸是什麼74
5.2連續空間和度量75
5.3線性回歸77
5.4logistic回歸81
5.5正則化83
5.6多元回歸84
5.7異方差84
5.8回歸樹85
5.9分類的度量87
5.10多分類問題87
5.11感知機87
5.12泛化誤差和過擬合90
5.13總結90
第6章使用非結構化數據91
6.1嵌套數據92
6.2其他序列化格式100
6.3Hive和Impala102
6.4會話化104
6.5使用特質109
6.6使用模式匹配110
6.7非結構化數據的其他用途113
6.8概率結構113
6.9投影113
6.10總結113
第7章使用圖算法115
7.1圖簡介115
7.2SBT116
7.3Scala的圖項目119
7.3.1增加節點和邊121
7.3.2圖約束123
7.3.3JSON124
7.4GraphX126
7.4.1誰收到電子郵 130
7.4.2連通分量131
7.4.3三角形計數132
7.4.4強連通分量132
7.4.5PageRank133
7.4.6SVD++134
7.5總結138
第8章Scala與R和Python的集成139
8.1R的集成140
8.1. 1R和SparkR的相關配置140
8.1.2數據框144
8.1.3線性模型150
8.1.4廣義線性模型152
8.1.5在SparkR中讀取JSON文件156
8.1.6在SparkR中寫入Parquet文件157
8.1. 7從R調用Scala158
8.2Python的集成161
8.2.1安裝Python161
8.2.2PySpark162
8.2.3從Java/Scala調用Python163
8.3總結167
第9章Scala中的NLP169
9.1文本分析流程170
9.2Spark的MLlib庫177
9.2. 1TF—IDF177
9.2.2LDA178
9.3分詞、標註和分塊185
9.4POS標記186
9.5使用word2vec尋找詞關係189
9.6總結192
第10章高級模型監控193
10.1系統監控194
10.2進程監控195
10.3模型監控201
10.3.1隨時間變化的性能202
10.3.2模型停用標準202
10.3.3A/B測試202
10.4總結202
