統計推薦系統

(美)迪帕克·K.阿加瓦爾(Deepak K. Agarwal)等著

立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

推薦系統無處不在,已經成為我們日常生活的一部分。本書由LinkedIn公司的兩位技術專家撰寫,著眼於推薦系統的核心——統計方法,不僅介紹算法理論,而且包含實驗分析及結果展示,分享了作者豐富的實戰經驗。
書中對推薦系統進行了全面討論,特別是面嚮日益突顯的多反饋和多目標優化問題,深入分析了當前先進的統計方法,如自適應序貫設計(多臂賭博機方法)、雙線性隨機效應模型(矩陣分解)以及基於MapReduce分佈式框架的可伸縮模型,為熱門推薦和個性化推薦提供了實用的解決方案。全書將基於回歸的響應預測方法作為主要工具,兼顧實驗設計和統計模型開發,關註探索和利用之間的權衡。

作者簡介

[美]迪帕克·K.阿加瓦爾(Deepak K. Agarwal)陳必衷(Bee-Chung Chen)著:

---作者簡介---


迪帕克·K.阿加瓦爾(Deepak K. Agarwal) LinkedIn公司副總裁,領導人工智能/機器學習團隊的研發工作。之前曾任Yahoo!研究院研究主管和首席研究員,以及AT&T公司研究員。20多年來,他致力於為Web應用開發、部署機器學習和統計方法,以及解決推薦系統和計算廣告領域的大數據問題。

陳必衷(Bee-Chung Chen) LinkedIn公司首席主任工程師、應用研究員,曾任Yahoo!研究院研究員。作為核心開發者,他為LinkedIn和Yahoo!設計了前沿的推薦算法,此外,他還關注數據挖掘、機器學習和大數據分析技術。

---譯者簡介---


戴薇

深圳大學計算機與軟件學院研究生,主要研究方向為遷移學習、推薦系統和機器學習。


潘微科

深圳大學計算機與軟件學院副教授,主要研究方向為遷移學習和推薦系統。


明仲

深圳大學計算機與軟件學院院長、教授,大數據系統計算技術國家工程實驗室執行主任,主要研究方向為人工智能、軟件工程和推薦系統。

目錄大綱

出版者的話
譯者序
前言
第一部分基礎知識
第1章簡介2
1.1面向網絡應用的推薦系統概述3
1.1.1算法3
1.1.2優化指標5
1.1.3探索與利用之間的權衡5
1.1.4推薦系統的評估5
1.1.5推薦和搜索:推送與拉取6
1.2一個簡單的評分模型:熱門推薦7
1.3練習10
第2章經典推薦方法11
2.1物品特徵11
2.1.1分類12
2.1.2詞袋模型13
2.1.3主題建模15
2.1.4其他物品特徵16
2.2用戶特徵16
2.2.1聲明的個人信息17
2.2.2基於內容的畫像17
2.2.3其他用戶特徵18
2.3基於特徵的方法18
2.3.1無監督方法18
2.3.2有監督方法19
2.3.3上下文信息22
2.4協同過濾22
2.4.1基於用戶-用戶相似度的方法23
2.4.2基於物品-物品相似度的方法24
2.4.3矩陣分解24
2.5混合方法27
2.6小結28
2.7練習28
第3章面向推薦問題的探索與利用29
3.1探索與利用之間的權衡簡介30
3.2多臂賭博機問題31
3.2.1貝葉斯方法31
3.2.2極小化極大方法34
3.2.3啟發式賭博方案35
3.2.4方法評價36
3.3推薦系統中的探索與利用36
3.3.1熱門推薦36
3.3.2個性化推薦36
3.3.3數據稀疏性的挑戰37
3.4處理數據稀疏性的探索與利用37
3.4.1降維方法37
3.4.2降維中的探索與利用39
3.4.3在線模型39
3.5小結40
3.6練習40
第4章評估方法41
4.1傳統的離線評估方法41
4.1.1數據劃分方法42
4.1.2準確度指標44
4.1.3排序指標45
4.2在線分桶測試49
4.2.1設置分桶測試49
4.2.2在線性能指標50
4.2.3測試結果分析51
4.3離線模擬52
4.4離線回放54
4.4.1基本回放估計55
4.4.2回放的擴展57
4.5小結58
4.6練習58
第二部分常見問題設置
第5章問題設置與系統架構60
5.1問題設置60
5.1.1常見的推薦模塊60
5.1.2應用設置63
5.1.3常見的統計方法65
5.2系統架構66
5.2.1主要組件66
5.2.2示例系統67
第6章熱門推薦69
6.1應用案例:雅虎“今日”模塊69
6.2問題定義71
6.3貝葉斯方案72
6.3.1 2×2案例:兩件物品,兩個間隔73
6.3.2 K×2案例:K件物品,兩個間隔75
6.3.3一般解77
6.4非貝葉斯方案79
6.5實驗評估81
6.5.1比較分析81
6.5.2方案刻畫83
6.5.3分段分析85
6.5.4桶測試結果86
6.6大規模內容池87
6.7小結87
6.8練習88
第7章基於特徵回歸的個性化89
7.1快速在線雙線性因子模型90
7.1.1 FOBFM概述90
7.1.2 FOBFM詳解91
7.2離線訓練93
7.2.1 EM算法94
7.2.2 E步驟95
7.2.3 M步驟96
7.2.4可擴展性97
7.3在線學習97
7.3.1在線高斯模型97
7.3.2在線邏輯模型98
7.3 .3探索與利用方案99
7.3.4在線模型選擇99
7.4雅虎數據集上的效果展示100
7.4.1 My Yahoo!數據集101
7.4.2雅虎首頁數據集103
7.4.3不包含離線雙線性項的FOBFM105
7.5小結105
7.6練習106
第8章基於因子模型的個性化107
8.1面向回歸的隱因子模型107
8.1.1從矩陣分解到RLFM108
8.1.2模型詳解109
8.1.3 RLFM的隨機過程112
8.2擬合算法113
8.2. 1適用於高斯響應的EM算法114
8.2.2適用於邏輯響應的基於ARS的EM算法118
8.2.3適用於邏輯響應的變分EM算法121
8.3冷啟動效果展示124
8.4時間敏感物品的大規模推薦127
8.4.1在線學習127
8.4.2並行擬合算法128
8.5大規模問題效果展示130
8.5.1 MovieLens-1M數據131
8.5.2小規模雅虎首頁數據132
8.5.3大規模雅虎首頁數據134
8.5. 4結果討論137
8.6小結138
8.7練習138
第三部分進階主題
第9章基於隱含狄利克雷分佈的分解140
9.1簡介140
9.2模型141
9.2.1模型概述141
9.2.2模型詳解142
9.3訓練和預測145
9.3.1模型擬合145
9.3.2預測150
9.4實驗150
9.4.1 MovieLens數據150
9.4.2 Yahoo! Buzz應用151
9.4.3 BookCrossing數據集153
9.5相關工作154
9.6小結155
第10章上下文相關推薦156
10.1張量分解模型157
10.1.1建模157
10.1.2模型擬合158
10.1.3討論159
10.2層次收縮模型160
10.2.1建模160
10.2.2模型擬合161
10.2.3局部增強張量模型164
10.3多角度新聞文章推薦165
10.3.1探索性數據分析166
10.3.2實驗評估171
10.4相關物品推薦176
10.4.1語義相關性177
10.4.2響應預測177
10.4.3預測響應和預測相關性的結合178
10.5小結178
第11章多目標優化179
11.1應用設置179
11.2分段方法180
11.2.1問題設置180
11.2.2目標優化181
11.3個性化方法183
11.3.1原始表示184
11.3.2拉格朗日對偶185
11.4近似方法188
11.4.1聚類188
11.4.2採樣189
11.5實驗189
11.5.1實驗設置190
11.5.2實驗結果191
11.6相關工作197
11.7小結198
參考文獻199
索引205