PySpark 機器學習、自然語言處理與推薦系統 (Machine Learning with PySpark: With Natural Language Processing and Recommender Systems)

普拉莫德·辛格 (Pramod Singh) 著蒲成譯

PySpark 機器學習、自然語言處理與推薦系統 (Machine Learning with PySpark: With Natural Language Processing and Recommender Systems)

預覽內頁

出版商: 清華大學
出版日期: 2020-01-01
定價: $354
售價: 8.5 折 $301
語言: 簡體中文
ISBN: 730254090X
ISBN-13: 9787302540908
相關分類: Spark、Machine Learning、Natural Language Processing、推薦系統
此書翻譯自: Machine Learning with PySpark: With Natural Language Processing and Recommender Systems

立即出貨 (庫存 < 3)

PySpark 機器學習、自然語言處理與推薦系統 (Machine Learning with PySpark: With Natural Language Processing and Recommender Systems)-preview-1

買這商品的人也買了...

~~$474~~ $450

程序員的數學3 : 線性代數
$354

用戶網絡行為畫像
~~$680~~ $530

Python + Spark 2.0 + Hadoop 機器學習與大數據分析實戰
$294

PySpark 實戰指南 : 利用 Python 和 Spark 構建數據密集型應用並規模化部署 (Learning PySpark)
$147

程序員的數學
$714

機器學習實戰：基於 Scikit-Learn 和 TensorFlow (Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques for Building Intelligent Systems)
$348

用戶畫像：大數據時代的買家思維營銷
$414

機器學習：使用 OpenCV 和 Python 進行智能圖像處理 (Machine Learning for OpenCV)
$327

面向自然語言處理的深度學習：用 Python 創建神經網絡 (Deep Learning for Natural Language Processing: Creating Neural Networks with Python)
~~$780~~ $616

科班出身的 AI人必修課：OpenCV 影像處理使用 Python
~~$880~~ $695

Spark 技術手冊｜輕鬆寫意處理大數據 (Spark: The Definitive Guide｜Big Data Processing Made Simple)
~~$600~~ $468

邁向 Linux 工程師之路：Superuser 一定要懂的技術與運用, 2/e (How Linux Works: What Every Superuser Should Know, 2/e)
~~$594~~ $564

深度學習圖解 (Grokking Deep Learning)
~~$680~~ $537

增壓的 Python｜讓程式碼進化到全新境界 (Supercharged Python: Take Your Code to the Next Level)
~~$980~~ $774

史上最完整細節：Kubernetes 超應用全書
~~$780~~ $663

東京大學資料科學家養成全書：使用 Python 動手學習資料分析
~~$690~~ $538

NLP 工程師養成術：自然語言處理入門
~~$780~~ $616

矽谷資深演算法大師：帶你學深度學習推薦系統 (附8頁彩頁)
~~$780~~ $616

猜心競賽 : 從實作了解推薦系統演算法
$474

Python 大數據處理庫 PySpark 實戰
~~$550~~ $435

實戰 VMware vSphere 7 部署與管理
~~$1,200~~ $948

NoSQL 開發完美方案：Redis + Docker 高性能虛擬化實戰
~~$680~~ $537

資料科學家的實用統計學 : 運用 R 和 Python 學習 50+個必學統計概念, 2/e (Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, 2/e)
~~$520~~ $411

輕鬆學量子程式設計｜從量子位元到量子演算法
~~$520~~ $411

Object-Oriented Python｜以 GUI 和遊戲程式學物件導向程式設計 (Object-Oriented Python)

中文年末書展｜繁簡參展書2書75折詳見活動內容 »

75折
~~$780~~ $585

為你寫的 Vue Components：從原子到系統，一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)
75折
~~$960~~ $720

BDD in Action, 2/e (中文版)
75折
~~$750~~ $563

看不見的戰場：社群、AI 與企業資安危機
79折
~~$390~~ $308

AI 精準提問 × 高效應用：DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定
7折
~~$420~~ $294

超實用！Word．Excel．PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)
75折
~~$550~~ $412

裂縫碎光：資安數位生存戰
85折
~~$640~~ $544

日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集
79折
~~$630~~ $498

Google BI 解決方案：Looker Studio × AI 數據驅動行銷實作，完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini
79折
~~$599~~ $473

超有料 Plus！職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化！
75折
~~$690~~ $518

從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)
75折
~~$640~~ $480

Windows 11 制霸攻略：圖解 AI 與 Copilot 應用，輕鬆搞懂新手必學的 Windows 技巧
75折
~~$480~~ $360

精準駕馭 Word！論文寫作絕非難事 (好評回饋版)
~~$699~~ $629

Sam Yang 的插畫藝術：用 Procreate / PS 畫出最強男友視角 x 女孩美好日常
79折
~~$599~~ $473

AI 加持！Google Sheets 超級工作流
78折
~~$780~~ $608

想要 SSR? 快使用 Nuxt 吧!：Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化（iThome鐵人賽系列書）
75折
~~$500~~ $375

超實用！業務．總管．人資的辦公室 WORD 365 省時高手必備 50招 (第二版)
7折
~~$680~~ $476

Node-RED + YOLO + ESP32-CAM：AIoT 智慧物聯網與邊緣 AI 專題實戰
79折
~~$599~~ $473

「生成式⇄AI」：52 個零程式互動體驗，打造新世代人工智慧素養
7折
~~$720~~ $504

Windows APT Warfare：惡意程式前線戰術指南, 3/e
75折
~~$850~~ $637

我輩程式人：回顧從 Ada 到 AI 這條程式路，程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)
75折
~~$600~~ $450

不用自己寫！用 GitHub Copilot 搞定 LLM 應用開發
79折
~~$780~~ $616

Tensorflow 接班王者：Google JAX 深度學習又快又強大 (好評回饋版)
79折
~~$700~~ $553

GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)
79折
~~$460~~ $363

技術士技能檢定電腦軟體應用丙級術科解題教本｜Office 2021
75折
~~$560~~ $420

Notion 與 Notion AI 全能實戰手冊：生活、學習與職場的智慧策略 (暢銷回饋版)

相關主題

商品描述

構建一系列有監督和無監督機器學習算法使用Spark MLlib庫實現機器學習算法使用Spark MLlib庫開發推薦系統處理與特徵工程、分類平衡、偏差和方差以及交叉驗證有關的問題，以便構建最優的擬合模型

作者簡介

Pramod Singh是Publicis.Sapient公司數據科學部門的經理，目前正作為數據科學跟蹤負責人與梅賽德斯奔馳的一個項目進行合作。

他在機器學習、數據工程、編程，以及為各種業務需求設計算法方面擁有豐富的實踐經驗，領域涉及零售、電信、汽車以及日用消費品等行業。

他在Publicis.Sapient主導了大量應對機器學習和AI的戰略計劃。他在孟買大學獲得了電氣與電子工程的學士學位，並且在印度共生國際大學獲得了MBA學位(運營&財務)，還在IIM – Calcutta(印度管理學院加爾各答分校)獲得了數據分析認證。

在過去八年中，他一直在跟進多個數據項目。在大量客戶項目中，他使用R、Python、Spark和TensorFlow應用機器學習和深度學習技術。

他一直是各重大會議和大學的演講常客。他會在Publicis.Sapient舉辦數據科學聚合併且定期出席關於ML和AI的網絡研討會。他和妻子以及兩歲的兒子居住在班加羅爾。閒暇的時候，他喜歡彈吉他、寫代碼、閱讀以及觀看足球比賽。

目錄大綱

目錄

第1章數據革命 1

1.1 數據生成 1

1.2 Spark 2

1.2.1 Spark Core 3

1.2.2 Spark組件 4

1.3 設置環境 5

1.3.1 Windows 5

1.3.2 iOS 6

1.4 小結 7

第2章機器學習簡介 9

2.1 有監督機器學習 10

2.2 無監督機器學習 12

2.3 半監督機器學習 14

2.4 強化學習 14

2.5 小結 15

第3章數據處理 17

3.1 加載和讀取數據 17

3.2 添加一個新列 20

3.3 篩選數據 21

3.3.1 條件1 21

3.3.2 條件2 22

3.4 列中的非重複值 23

3.5 數據分組 23

3.6 聚合 25

3.7 用戶自定義函數(UDF) 26

3.7.1 傳統的Python函數 26

3.7.2 使用lambda函數 27

3.7.3 Pandas UDF(向量化的UDF) 28

3.7.4 Pandas UDF(多列) 29

3.8 去掉重複值 29

3.9 刪除列 30

3.10 寫入數據 30

3.10.1 csv 31

3.10.2 嵌套結構 31

3.11 小結 31

第4章線性回歸 33

4.1 變量 33

4.2 理論 34

4.3 說明 41

4.4 評估 42

4.5 代碼 43

4.5.1 數據信息 43

4.5.2 步驟1：創建

SparkSession對象 44

4.5.3 步驟2：讀取數據集 44

4.5.4 步驟3：探究式數據分析 44

4.5.5 步驟4：特徵工程化 45

4.5.6 步驟5：劃分數據集 47

4.5.7 步驟6：構建和訓練線性回歸模型 47

4.5.8 步驟7：在測試數據上評估線性回歸模型 48

4.6 小結 48

第5章邏輯回歸 49

5.1 概率 49

5.1.1 使用線性回歸 50

5.1.2 使用Logit 53

5.2 截距(回歸係數) 54

5.3 虛變量 55

5.4 模型評估 56

5.4.1 正確的正面預測 56

5.4.2 正確的負面預測 57

5.4.3 錯誤的正面預測 57

5.4.4 錯誤的負面預測 57

5.4.5 準確率 57

5.4.6 召回率 57

5.4.7 精度 58

5.4.8 F1分數 58

5.4.9 截斷/閾值概率 58

5.4.10 ROC曲線 58

5.5 邏輯回歸代碼 59

5.5.1 數據信息 59

5.5.2 步驟1：創建Spark會話對象 60

5.5.3 步驟2：讀取數據集 60

5.5.4 步驟3：探究式數據分析 60

5.5.5 步驟4：特徵工程 63

5.5.6 步驟5：劃分數據集 68

5.5.7 步驟6：構建和訓練邏輯回歸模型 69

5.5.8 訓練結果 69

5.5.9 步驟7：在測試數據上評估線性回歸模型 70

5.5.10 混淆矩陣 71

5.6 小結 72

第6章隨機森林 73

6.1 決策樹 73

6.1.1 熵 75

6.1.2 信息增益 76

6.2 隨機森林 78

6.3 代碼 80

6.3.1 數據信息 80

6.3.2 步驟1：創建SparkSession對象 81

6.3.3 步驟2：讀取數據集 81

6.3.4 步驟3：探究式數據分析 81

6.3.5 步驟4：特徵工程 85

6.3.6 步驟5：劃分數據集 86

6.3.7 步驟6：構建和訓練隨機森林模型 87

6.3.8 步驟7：基於測試數據進行評估 87

6.3.9 準確率 89

6.3.10 精度 89

6.3.11 AUC曲線下的面積 89

6.3.12 步驟8：保存模型 90

6.4 小結 90

第7章推薦系統 91

7.1 推薦 91

7.1.1 基於流行度的RS 92

7.1.2 基於內容的RS 93

7.1.3 基於協同過濾的RS 95

7.1.4 混合推薦系統 103

7.2 代碼 104

7.2.1 數據信息 105

7.2.2 步驟1：創建SparkSession對象 105

7.2.3 步驟2：讀取數據集 105

7.2.4 步驟3：探究式數據分析 105

7.2.5 步驟4：特徵工程 108

7.2.6 步驟5：劃分數據集 109

7.2.7 步驟6：構建和訓練推薦系統模型 110

7.2.8 步驟7：基於測試數據進行預測和評估 110

7.2.9 步驟8：推薦活動用戶可能會喜歡的排名靠前的電影 111

7.3 小結 114

第8章聚類 115

8.1 初識聚類 115

8.2 用途 117

8.2.1 K-均值 117

8.2.2 層次聚類 127

8.3 代碼 131

8.3.1 數據信息 131

8.3.2 步驟1：創建SparkSession對象 131

8.3.3 步驟2：讀取數據集 131

8.3.4 步驟3：探究式數據分析 131

8.3.5 步驟4：特徵工程 133

8.3.6 步驟5：構建K均值聚類模型 133

8.3.7 步驟6：聚類的可視化 136

8.4 小結 137

第9章自然語言處理 139

9.1 引言 139

9.2 NLP涉及的處理步驟 139

9.3 語料 140

9.4 標記化 140

9.5 移除停用詞 141

9.6 詞袋 142

9.7 計數向量器 143

9.8 TF-IDF 144

9.9 使用機器學習進行文本分類 145

9.10 序列嵌入 151

9.11 嵌入 151

9.12 小結 160

類似商品

85折
$505

基於 Spark 的下一代機器學習：XGBoost、LightGBM、Spark NLP 與 Keras 分佈式深度學習實例
$594

機器學習算法（原書*2版）
78折
~~$650~~ $507

Python 資料科學與機器學習：從入門到實作必備攻略 (Hands-On Data Science and Machine Learning with Python)
79折
$469

Scala機器學習：構建現實世界機器學習和深度學習項目
79折
$607

Spark機器學習實戰
85折
$403

全棧數據之門
79折
$374

人工智能數學基礎與 Python 機器學習實戰
79折
$796

深度學習
66折
$257

Spark編程基礎（Scala版第2版）（附微課視頻）
79折
$517

百面機器學習 : 算法工程師帶你去面試

最後瀏覽商品 (6)