機器學習算法競賽實戰

王賀 劉鵬 錢乾

  • 出版商: 人民郵電
  • 出版日期: 2021-09-01
  • 定價: $599
  • 售價: 9.5$569
  • 語言: 簡體中文
  • 頁數: 322
  • 裝訂: 平裝
  • ISBN: 7115569592
  • ISBN-13: 9787115569592
  • 相關分類: Machine Learning
  • 立即出貨 (庫存 < 4)

  • 機器學習算法競賽實戰-preview-1
  • 機器學習算法競賽實戰-preview-2
機器學習算法競賽實戰-preview-1

買這商品的人也買了...

商品描述

本書是算法競賽領域一本系統介紹競賽的圖書,書中不僅包含競賽的基本理論知識,還結合多個方向和案例詳細闡述了競賽中的上分思路和技巧。全書分為五部分:第一部分以算法競賽的通用流程為主,介紹競賽中各個部分的核心內容和具體工作;第二部分介紹了用戶畫像相關的問題;第三部分以時間序列預測問題為主,先講述這類問題的常見解題思路和技巧,然後分析天池平臺的全球城市計算AI 挑戰賽和 Kaggle 平臺的Corporación Favorita Grocery Sales Forecasting;第四部分主要介紹計算廣告的核心技術和業務,包括廣告召回、廣告排序和廣告競價,其中兩個實戰案例是2018 騰訊廣告算法大賽——相似人群拓展和Kaggle 平臺的TalkingData AdTracking Fraud Detection Challenge;第五部分基於自然語言處理相關的內容進行講解,其中實戰案例是Kaggle 平臺上的經典競賽Quora Question Pairs。

本書適合從事機器學習、數據挖掘和人工智能相關算法崗位的人閱讀。

作者簡介

王賀(魚遇雨欲語與餘)
畢業於武漢大學計算機學院,碩士學位,研究方向為圖數據挖掘,現任職於小米商業算法部,從事應用商店廣告推薦的研究和開發。
是2019年和2020年騰訊廣告算法大賽的冠軍,從2018年至2020年多次參加國內外算法競賽,共獲得五次冠軍和五次亞軍。


劉鵬
2016年本科畢業於武漢大學數學基地班,保研至中國科學技術大學自動化系,碩士期間研究方向為複雜網絡與機器學習,2018年起多次獲得機器學習相關競賽獎項,2019年至今就職於華為技術有限公司,任算法工程師。


錢乾
本科就讀於美國佐治亞理工大學,研究方向包括機器學習、深度學習、自然語言處理等,現就職於數程科技,工作方向為物流領域的智能算法應用,任大數據技術負責人。

目錄大綱

目  錄
第 1 章 初見競賽 1
1.1 競賽平台 2
1.1.1 Kaggle 2
1.1.2 天池 6
1.1.3 DF 7
1.1.4 DC 7
1.1.5 Kesci 7
1.1.6 JDATA 8
1.1.7 企業網站 8
1.2 競賽流程 8
1.2.1 問題建模 8
1.2.2 數據探索 9
1.2.3 特徵工程 9
1.2.4 模型訓練 9
1.2.5 模型融合 10
1.3 競賽類型 10
1.3.1 數據類型 10
1.3.2 任務類型 11
1.3.3 應用場景 11
1.4 思考練習 11
第 2 章 問題建模 12
2.1 賽題理解 12
2.1.1 業務背景 12
2.1.2 數據理解  14
2.1.3 評價指標 14
2.2 樣本選擇 20
2.2.1 主要原因 20
2.2.2 準確方法 22
2.2.3 應用場景 23
2.3 線下評估策略 24
2.3.1 強時序性問題 24
2.3.2 弱時序性問題 24
2.4 實戰案例 25
2.4.1 賽題理解 26
2.4.2 線下驗證 27
2.5 思考練習 28
第3 章 數據探索 29
3.1 數據初探 29
3.1.1 分析思路 29
3.1.2 分析方法 30
3.1.3 明確目的 30
3.2 變量分析 32
3.2.1 單變量分析 33
3.2.2 多變量分析 37
3.3 模型分析 39
3.3.1 學習曲線 39
3.3.2 特徵重要性分析 40
3.3.3 誤差分析 41
3.4 思考練習 42
第4 章 特徵工程 43
4.1 數據預處理 43
4.1.1 缺失值處理 44
4.1.2 異常值處理 45
4.1.3 優化內存 46
4.2 特徵變換 47
4.2.1 連續變量無量綱化 47
4.2.2 連續變量數據變換 48
4.2.3 類別特徵轉換 50
4.2.4 不規則特徵變換 50
4.3 特徵提取 51
4.3.1 類別相關的統計特徵 51
4.3.2 數值相關的統計特徵 53
4.3.3 時間特徵 53
4.3.4 多值特徵 54
4.3.5 小結 55
4.4 特徵選擇 55
4.4.1 特徵關聯性分析 55
4.4.2 特徵重要性分析 57
4.4.3 封裝方法 57
4.4.4 小結 58
4.5 實戰案例 59
4.5.1 數據預處理  59
4.5.2 特徵提取 60
4.5.3 特徵選擇 61
4.6 練習 62
第5 章 模型選擇 63
5.1 線性模型 63
5.1.1 Lasso 回歸 63
5.1.2 Ridge 回歸 64
5.2 樹模型 64
5.2.1 隨機森林 65
5.2.2 梯度提升樹 66
5.2.3 XGBoost 67
5.2.4 LightGBM 68
5.2.5 CatBoost 69
5.2.6 模型深入對比 70
5.3 神經網絡 73
5.3.1 多層感知機 74
5.3.2 卷積神經網絡 75
5.3.3 循環神經網絡 77
5.4 實戰案例 79
5.5 練習 80
第6 章 模型融合 81
6.1 構建多樣性 81
6.1.1 特徵多樣性 81
6.1.2 樣本多樣性 82
6.1.3 模型多樣性 82
6.2 訓練過程融合 83
6.2.1 Bagging 83
6.2.2 Boosting 83
6.3 訓練結果融合 84
6.3.1 加權法 84
6.3.2 Stacking 融合 86
6.3.3 Blending 融合 87
6.4 實戰案例 88
6.5 練習 90
第7 章 用戶畫像 91
7.1 什麼是用戶畫像 92
7.2 標籤系統 92
7.2.1 標籤分類方式 92
7.2.2 多渠道獲取標籤 93
7.2.3 標籤體系框架 94
7.3 用戶畫像數據特徵 95
7.3.1 常見的數據形式 95
7.3.2 文本挖掘算法 97
7.3.3 神奇的嵌入表示 98
7.3.4 相似度計算方法 101
7.4 用戶畫像的應用  103
7.4.1 用戶分析  103
7.4.2 精準營銷 104
7.4.3 風控領域 105
7.5 思考練習 106
第8 章 實戰案例:Elo Merchant Category Recommendation(Kaggle) 107
8.1 賽題理解 107
8.1.1 賽題背景 107
8.1.2 賽題數據 108
8.1.3 賽題任務 108
8.1.4 評價指標 109
8.1.5 賽題FAQ 109
8.2 探索性分析 109
8.2.1 字段類別含義 110
8.2.2 字段取值狀況 111
8.2.3 數據分佈差異 112
8.2.4 表格關聯關係 115
8.2.5 數據預處理 115
8.3 特徵工程 116
8.3.1 通用特徵 116
8.3.2 業務特徵 117
8.3.3 文本特徵 118
8.3.4 特徵選擇 119
8.4 模型訓練 119
8.4.1 隨機森林 119
8.4.2 LightGBM 121
8.4.3 XGBoost 124
8.5 模型融合 127
8.5.1 加權融合 127
8.5.2 Stacking 融合 127
8.6 高效提分 128
8.6.1 特徵優化 128
8.6.2 融合技巧 130
8.7 賽題總結 134
8.7.1 更多方案 134
8.7.2 知識點梳理 135
8.7.3 延伸學習 135
第9 章 時間序列分析 138
9.1 介紹時間序列分析 138
9.1.1 簡單定義 138
9.1.2 常見問題 139
9.1.3 交叉驗證 140
9.1.4 基本規則方法 141
9.2 時間序列模式 142
9.2.1 趨勢性 142
9.2.2 週期性 143
9.2.3 相關性 144
9.2.4 隨機性 144
9.3 特徵提取方式 144
9.3.1 歷史平移 145
9.3.2 窗口統計 145
9.3.3 序列熵特徵 145
9.3.4 其他特徵 146
9.4 模型的多樣性 146
9.4.1 傳統的時序模型 147
9.4.2 樹模型 147
9.4.3 深度學習模型 148
9.5 練習 150
第 10 章 實戰案例:全球城市計算AI挑戰賽 151
10.1 賽題理解 151
10.1.1 背景介紹 152
10.1.2 賽題數據 152
10.1.3 評價指標 153
10.1.4 賽題FAQ 153
10.1.5 baseline 方案 153
10.2 探索性數據分析 157
10.2.1 數據初探 157
10.2.2 模式分析 159
10.3 特徵工程 162
10.3.1 數據預處理 162
10.3.2 強相關性特徵 163
10.3.3 趨勢性特徵 165
10.3.4 站點相關特徵 165
10.3.5 特徵強化 166
10.4 模型選擇 166
10.4.1 LightGBM 模型 167
10.4.2 時序模型 168
10.5 強化學習 170
10.5.1 時序stacking 170
10.5.2 Top 方案解析 171
10.5.3 相關賽題推薦  172
第 11 章 實戰案例-Corporación Favorita Grocery Sales Forecasting 174
11.1 賽題理解 174
11.1.1 背景介紹 174
11.1.2 賽題數據 175
11.1.3 評價指標 175
11.1.4 賽題FAQ 176
11.1.5 baseline 方案 176
11.2 探索性數據分析 181
11.2.1 數據初探 181
11.2.2 單變量分析 184
11.2.3 多變量分析 188
11.3 特徵工程 190
11.3.1 歷史平移特徵 191
11.3.2 窗口統計特徵 192
11.3.3 構造粒度多樣性 193
11.3.4 高效特徵選擇 194
11.4 模型選擇 195
11.4.1 LightGBM 模型 196
11.4.2 LSTM 模型 196
11.4.3 Wavenet 模型 198
11.4.4 模型融合 199
11.5 賽題總結 200
11.5.1 更多方案 200
11.5.2 知識點梳理 201
11.5.2 延伸學習 202
第 12 章 計算廣告 204
12.1 什麼是計算廣告 204
12.1.1 主要問題 205
12.1.2 計算廣告系統架構 205
12.2 廣告類型 207
12.2.1 合約廣告 207
12.2.2 競價廣告 207
12.2.3 程序化交易廣告 208
12.3 廣告召回 208
12.3.1 廣告召回模塊 208
12.3.2 DSSM 語義召回 210
12.4 廣告排序 211
12.4.1 點擊率預估 211
12.4.2 特徵處理 212
12.4.3 常見模型 214
12.5 廣告競價 219
12.6 小結 221
12.7 思考練習 221
第 13 章 實戰案例:2018 騰訊廣告算法大賽——相似人群拓展 222
13.1 賽題理解 222
13.1.1 賽題背景 223
13.1.2 賽題數據 224
13.1.3 賽題任務 226
13.1.4 評價指標 226
13.1.5 賽題FAQ 227
13.2 探索性數據分析 227
13.2.1 競賽的公開數據集 227
13.2.2 訓練集與測試集 227
13.2.3 廣告屬性 229
13.2.4 用戶信息 229
13.2.5 數據集特徵拼接 230
13.2.6 基本建模思路 232
13.3 特徵工程 232
13.3.1 經典特徵 232
13.3.2 業務特徵 234
13.3.3 文本特徵 235
13.3.4 特徵降維 237
13.3.5 特徵存儲 238
13.4 模型訓練 238
13.4.1 LightGBM 238
13.4.2 CatBoost  238
13.4.3 XGBoost 239
13.5 模型融合 239
13.5.1 加權融合 239
13.5.2 Stacking 融合 239
13.6 賽題總結 240
13.6.1 更多方案 240
13.6.2 知識點梳理 241
13.6.3 延伸學習 241
第 14 章 實戰案例-TalkingData AdTracking Fraud DetectionChallenge 243
14.1 賽題理解 243
14.1.1 背景介紹 243
14.1.2 賽題數據 244
14.1.3 評價指標 244
14.1.4 賽題FAQ 244
14.1.5 baseline 方案 245
14.2 探索性數據分析 247
14.2.1 數據初探 247
14.2.2 單變量分析 249
14.2.3 多變量分析 254
14.2.4 數據分佈 255
14.3 特徵工程 256
14.3.1 統計特徵 256
14.3.2 時間差特徵 257
14.3.3 排序特徵 258
14.3.4 目標編碼特徵 258
14.4 模型選擇 259
14.4.1 LR 模型 259
14.4.2 CatBoost 模型 259
14.4.3 LightGBM 模型 260
14.4.4 DeepFM 模型 261
14.5 賽題總結 264
14.5.1 更多方案 264
14.5.2 知識點梳理 265
14.5.3 延伸學習 266
第 15 章 自然語言處理 268
15.1 自然語言處理的發展歷程 268
15.2 自然語言處理的常見場景 269
15.2.1 分類、回歸任務 269
15.2.2 信息檢索、文本匹配等任務 269
15.2.3 序列對序列、序列標註 269
15.2.4 機器閱讀 270
15.3 自然語言處理的常見技術 270
15.3.1 基於詞袋模型、TF-IDF.的特徵提取 270
15.3.2 N-Gram 模型 271
15.3.3 詞嵌入模型 271
15.3.5 上下文相關預訓練模型 272
15.3.6 常用的深度學習模型結構 274
15.4 練習 276
第 16 章 實戰案例:Quora QuestionPairs 277
16.1 賽題理解 277
16.1.1 賽題背景 277
16.1.2 賽題數據 278
16.1.3 賽題任務 278
16.1.4 評價指標 278
16.1.5 賽題FAQ 278
16.2 探索性數據分析 279
16.2.1 字段類別含義 279
16.2.2 數據集基本量 279
16.2.3 文本的分佈 280
16.2.4 詞的數量與詞云分析 282
16.2.5 基於傳統手段的文本數據預處理 284
16.2.6 基於深度學習模型的文本數據預處理 284
16.3 特徵工程 285
16.3.1 通用文本特徵 285
16.3.2 相似度特徵 287
16.3.3 詞向量的進一步應用——獨有詞匹配 290
16.3.4 詞向量的進一步應用——詞與詞的兩兩匹配 290
16.3.5 其他相似度計算方式 291
16.4 機器學習模型和模型的訓練 291
16.4.1 TextCNN 模型 291
16.4.2 TextLSTM 模型 292
16.4.3 TextLSTM with Attention 模型 293
16.4.4 Self-Attention 層 295
16.4.5 Transformer 和BERT 類模型 296
16.4.6 基於 representation 和基於 interaction 的深度學習模型的差異 298
16.4.7 一種特殊的基於 interaction 的深度學習模型 303
16.4.8 深度學習文本數據的翻譯增強 303
16.4.9 深度學習文本數據的預處理 304
16.4.10 BERT 模型的訓練 306
16.5 模型融合 310
16.6 賽題總結 310
16.6.1 更多方案 310
16.6.2 知識點梳理 310
16.6.3 延伸學習 311