Microsoft Azure 機器學習和預測分析

Roger Barga, Valentine Fontama, Wee Hyong Tok 著、李永倫 譯

買這商品的人也買了...

商品描述

近年來,機器學習領域受到越來越多的關注,相關的機器學習算法開始成為熱點。
本書專門介紹了有關機器學習的內容,全書共分3部分:第1部分是數據科學和Microsoft Azure Machine Learning導論,介紹了數據科學和Microsoft Azure Machine Learning的基本知識以及需要用到的語言的基本知識;第二部分是統計學和機器學習算法,系統地講解了統計學和機器學習的相關算法;第三部分是實用應用程序,這一部分介紹了新的微軟Azure機器學習服務,講解如何高效構建和部署預測模型,還講解瞭如何解決傾向建模、產品推薦等實用技能。
本書可供數據科學、商業分析和商業智能領域的開發人員,對機器學習感興趣的開發者閱讀。

作者簡介

Roger Barga是亞馬遜Web服務的總經理和開發總監。在加入亞馬遜之前,Roger是微軟的雲與企業部門的雲機器學習組的產品組程序經理,他的團隊負責Azure機器學習服務的產品管理。Roger於1997年加入微軟,在微軟研究院的數據庫產品組裡擔任研究員,他領導數據庫、工作流和流處理系統的系統研究和產品開發。他提出了從基礎研究,通過原型驗證概念,到產品組孵化的設想。在加入微軟之前,Roger是Pacific Northwest National Laboratory的機器學習組的研究科學家,他構建和部署基於機器學習的解決方案。Roger還是華盛頓大學的助理教授,他是數據科學和機器學習課程的講師。
Roger擁有計算機科學的博士學位(PhD),專攻機器學習。從1991年到2013年,他發表了超過90份同行評審的技術論文和專書論文,和214個合著者共事,有1084個作者超過700個引述。
Valentine Fontama是微軟Cloud & Enterprise Analytics and Insights產品組的數據科學家經理。Val在數據科學和業務上有著超過18年的經驗。在獲得人工神經網絡的博士學位之後,他把數據挖掘應用到環境科學和信用行業。在加入微軟之前,Val是倫敦Equifax的新技術諮詢師,他zui先提倡把數據挖掘應用到消費信用行業的風險評估和市場營銷。他目前是華盛頓大學的數據科學助理教授。
他之前在微軟的職位是Data and Decision Sciences Group(DDSG)的主要數據科學家,為微軟客戶(包括ThyssenKrupp和Dell)提供外部諮詢。在那之前,他是一個資-深產品營銷經理,負責雲的大數據和預測分析以及企業營銷。在這個角色裡,他負責微軟Azure機器學習的產品管理;HDInsight,微軟的首-個Hadoop服務;Parallel Data Warehouse,微軟的首-個數據倉庫工具;Fast Track Data Warehouse的3個版本發布。
Val擁有沃頓商學院的戰略管理和市場營銷的MBA學位,擁有神經網絡的博士學位,擁有計算方面的碩士學位,擁有數學和電子的學士學位(獲得一等榮譽)。他合著了《Introducing Microsoft Azure HDInsight》一書,發表過11份學術論文,有超過227個作者152個引述。

Wee-Hyong Tok是微軟公司雲與企業組的信息管理和機器學習(IMML)團隊的資-深程序經理。Wee-Hyong帶來了數十年跨行業和學術的數據庫系統經驗。
在獲得博士學位之前,Wee-Hyong是新加坡一個大型電信公司的系統分析師。Wee-Hyong是SQL Server方向的zui有價值專家(MVP),專注於商業智能和數據挖掘領域。他率先在東南亞開展數據挖掘訓練營,為IT專家帶來知識和技術,使他們可以在他們的組織裡使用分析工具把原始數據轉成洞察。
他加入微軟並在SQL Server團隊里工作,負責塑造SSIS Server,並在SQL Server 2012裡把它從概念變成實現。
Wee-Hyong擁有新加坡國立大學的計算機科學的博士學位和計算方面的碩士學位(獲得一等榮譽)。他發表過21篇同行評審的學術論文和期刊文章。他是以下書籍的合著者:《Predictive Analytics with Microsoft Azure Machine Learning》《Introducing Microsoft Azure HDInsight》和《Microsoft SQL Server 2012 Integration Services》。

目錄大綱

第1部分數據科學和Microsoft Azure Machine Learning導論

第1章數據科學導論3 

1.1數據科學是什麼3 
1.2分析頻譜4 
1.2.1描述性分析4 
1.2.2診斷性分析5 
1.2.3預測性分析5 
1.2 .4規定性分析5 
1.3為何重要,為何現在6 
1.3.1把數據看作競爭資產6 
1.3.2客戶需求的增長6 
1.3.3對數據挖掘技術認識的提高7 
1.3.4訪問更多數據7 
1.3.5更快、更廉價的處理能力7 
1.3.6數據科學流程8 
1.4常見數據科學技術10 
1.4.1分類算法10 
1.4.2聚類算法11 
1.4.3回歸算法12 
1.4.4模擬12 
1.4 .5內容分析12 
1.4.6推薦引擎13 
1.5數據科學的前沿13 
1.6小結14 

第2章Microsoft Azure Machine Learning導論15 

2.1你好,Machine Learning Studio15 
2.2實驗的組件16 
2.3Gallery簡介17 
2.4創建訓練實驗的5個簡單步驟18
2.4.1第1步:獲取數據19 
2.4.2第2步:預處理數據20 
2.4.3第3步:定義特徵22 
2.4.4第4步:選擇和應用學習算法23 
2.4.5第5步:在新數據之上做預測24 
2.5在生產環境裡部署你的模型26 
2.5.1創建預測實驗26 
2.5.2把你的實驗發布成Web服務28 
2.5.3訪問Azure Machine Learning的Web服務28 
2.6小結30 

第3章數據準備31 

3.1數據清理和處理31 
3.1.1了解你的數據32 
3.1.2缺失值和空值37 
3.1.3處理重複記錄38 
3.1.4識別並移除離群值39 
3.1 .5特徵歸一化40 
3.1.6處理類別不均41 
3.2特徵選擇43 
3.3特徵工程46 
3.3.1分裝數據48 
3.3.2維度災難50 
3.4小結53 

第4章整合R54
 
4.1R概覽54 
4.2構建和部署你的首個R腳本56 
4.3使用R進行數據預處理59 
4.4使用腳本包(ZIP)61 
4.5使用R構建和部署決策樹64 
4.6小結68 

第5章整合Python69 

5.1概覽69
5.2Python快速上手70 
5.3在AzureML實驗裡使用Python71 
5.4使用Python進行數據預處理76 
5.4.1使用Python合併數據76 
5.4.2使用Python處理缺失值79 
5.4.3使用Python進行特徵選擇80 
5.4.4在AzureML實驗裡運行Python代碼82 
5.5小結86 
第2部分統計學和機器學習算法

第6章統計學和機器學習算法概覽89 

6.1回歸算法89 
6.1.1線性回歸89 
6.1.2神經網絡90 
6.1.3決策樹92 
6.1.4提升決策樹93 
6.2分類算法94 
6.2.1支持向量機95 
6.2.2貝葉斯點機96 
6.3聚類算法97 
6.4小結99 
第3部分實用應用程序

第7章構建客戶傾向模型103 

7.1業務問題103 
7.2數據獲取和準備104 
7.3訓練模型109 
7.4模型測試和驗證111 
7.5模型的性能112 
7.6確定評估指標的優先級115 
7.7小結116 

第8章使用PowerBI可視化你的模型117 

8.1概覽117 
8.2PowerBI簡介117
8.3使用PowerBI可視化的三種方案119 
8.4在Azure Machine Learning裡給你的數據評分,並在Excel裡可視化120 
8.5在Excel裡評分並可視化你的數據123 
8.6在Azure Machine Learning裡給你的數據評分,並在powerbi.com裡可視化124 
8.6.1加載數據125 
8.6.2構建你的儀表板125 
8.7小結127 

第9章構建流失模型128 

9.1流失模型概覽128 
9.2構建和部署客戶流失模型129 
9.2.1準備和了解數據129 
9.2.2數據預處理和特徵選擇132 
9.2.3用於預測流失的分類模型135 
9.2.4評估客戶流失模型的性能137 
9.3小結138 

第10章客戶細分模型139 

10.1客戶細分模型概覽139 
10.2構建和部署你的第一個K均值聚類模型140 
10.2.1特徵散列142 
10.2.2找出合適的特徵142 
10.2.3K均值聚類算法的屬性144 
10.3批發客戶的客戶細分145 
10.3.1從UCI機器學習庫加載數據145 
10.3.2使用K均值聚類算法進行批發客戶細分146 
10.3.3新數據的聚類分配147 
10.4小結148

第11章構建預見性維護模型149 

11.1概覽149 
11.2預見性維護場景150 
11.3業務問題150 
11.4數據獲取和準備151 
11.4.1數據集151 
11.4.2數據加載151 
11.4.3數據分析151 
11.5訓練模型154 
11.6模型測試和驗證155 
11.7模型性能156 
11.8改善模型的技術158 
11.9模型部署161 
11.9.1創建預測實驗161 
11.9.2把你的實驗部署成Web服務162 
11.10小結163 

第12章推薦系統164 

12.1概覽164 
12.2推薦系統的方案和場景164 
12.3業務問題165 
12.4數據獲取和準備166 
12.5訓練模型170 
12.6模型測試和驗證171 
12.7小結175 

第13章使用和發布Azure Marketplace上的模型176 

13.1什麼是機器學習API176 
13.2如何使用Azure Marketplace的API178 
13.3在Azure Marketplace裡發布你自己的模型182 
13.4為你的機器學習模型創建和發布Web服務182 
13.4.1創建評分實驗183
13.4.2把你的實驗發布成Web服務183 
13.5獲取API密鑰和OData端點信息184 
13.6把你的模型發佈為Azure Marketplace裡的API184 
13.7小結186 

第14章Cortana分析187 

14.1Cortana分析套件是什麼187 
14.2Cortana分析套件的功能187 
14.3示例場景189 
14.4小結190

第1部分數據科學和Microsoft Azure Machine Learning導論

第1章數據科學導論3 

1.1數據科學是什麼3 
1.2分析頻譜4 
1.2.1描述性分析4 
1.2.2診斷性分析5 
1.2.3預測性分析5 
1.2 .4規定性分析5 
1.3為何重要,為何現在6 
1.3.1把數據看作競爭資產6 
1.3.2客戶需求的增長6 
1.3.3對數據挖掘技術認識的提高7 
1.3.4訪問更多數據7 
1.3.5更快、更廉價的處理能力7 
1.3.6數據科學流程8 
1.4常見數據科學技術10 
1.4.1分類算法10 
1.4.2聚類算法11 
1.4.3回歸算法12 
1.4.4模擬12 
1.4 .5內容分析12 
1.4.6推薦引擎13 
1.5數據科學的前沿13 
1.6小結14 

第2章Microsoft Azure Machine Learning導論15 

2.1你好,Machine Learning Studio15 
2.2實驗的組件16 
2.3Gallery簡介17 
2.4創建訓練實驗的5個簡單步驟18
2.4.1第1步:獲取數據19 
2.4.2第2步:預處理數據20 
2.4.3第3步:定義特徵22 
2.4.4第4步:選擇和應用學習算法23 
2.4.5第5步:在新數據之上做預測24 
2.5在生產環境裡部署你的模型26 
2.5.1創建預測實驗26 
2.5.2把你的實驗發布成Web服務28 
2.5.3訪問Azure Machine Learning的Web服務28 
2.6小結30 

第3章數據準備31 

3.1數據清理和處理31 
3.1.1了解你的數據32 
3.1.2缺失值和空值37 
3.1.3處理重複記錄38 
3.1.4識別並移除離群值39 
3.1 .5特徵歸一化40 
3.1.6處理類別不均41 
3.2特徵選擇43 
3.3特徵工程46 
3.3.1分裝數據48 
3.3.2維度災難50 
3.4小結53 

第4章整合R54
 
4.1R概覽54 
4.2構建和部署你的首個R腳本56 
4.3使用R進行數據預處理59 
4.4使用腳本包(ZIP)61 
4.5使用R構建和部署決策樹64 
4.6小結68 

第5章整合Python69 

5.1概覽69
5.2Python快速上手70 
5.3在AzureML實驗裡使用Python71 
5.4使用Python進行數據預處理76 
5.4.1使用Python合併數據76 
5.4.2使用Python處理缺失值79 
5.4.3使用Python進行特徵選擇80 
5.4.4在AzureML實驗裡運行Python代碼82 
5.5小結86 
第2部分統計學和機器學習算法

第6章統計學和機器學習算法概覽89 

6.1回歸算法89 
6.1.1線性回歸89 
6.1.2神經網絡90 
6.1.3決策樹92 
6.1.4提升決策樹93 
6.2分類算法94 
6.2.1支持向量機95 
6.2.2貝葉斯點機96 
6.3聚類算法97 
6.4小結99 
第3部分實用應用程序

第7章構建客戶傾向模型103 

7.1業務問題103 
7.2數據獲取和準備104 
7.3訓練模型109 
7.4模型測試和驗證111 
7.5模型的性能112 
7.6確定評估指標的優先級115 
7.7小結116 

第8章使用PowerBI可視化你的模型117 

8.1概覽117 
8.2PowerBI簡介117
8.3使用PowerBI可視化的三種方案119 
8.4在Azure Machine Learning裡給你的數據評分,並在Excel裡可視化120 
8.5在Excel裡評分並可視化你的數據123 
8.6在Azure Machine Learning裡給你的數據評分,並在powerbi.com裡可視化124 
8.6.1加載數據125 
8.6.2構建你的儀表板125 
8.7小結127 

第9章構建流失模型128 

9.1流失模型概覽128 
9.2構建和部署客戶流失模型129 
9.2.1準備和了解數據129 
9.2.2數據預處理和特徵選擇132 
9.2.3用於預測流失的分類模型135 
9.2.4評估客戶流失模型的性能137 
9.3小結138 

第10章客戶細分模型139 

10.1客戶細分模型概覽139 
10.2構建和部署你的第一個K均值聚類模型140 
10.2.1特徵散列142 
10.2.2找出合適的特徵142 
10.2.3K均值聚類算法的屬性144 
10.3批發客戶的客戶細分145 
10.3.1從UCI機器學習庫加載數據145 
10.3.2使用K均值聚類算法進行批發客戶細分146 
10.3.3新數據的聚類分配147 
10.4小結148

第11章構建預見性維護模型149 

11.1概覽149 
11.2預見性維護場景150 
11.3業務問題150 
11.4數據獲取和準備151 
11.4.1數據集151 
11.4.2數據加載151 
11.4.3數據分析151 
11.5訓練模型154 
11.6模型測試和驗證155 
11.7模型性能156 
11.8改善模型的技術158 
11.9模型部署161 
11.9.1創建預測實驗161 
11.9.2把你的實驗部署成Web服務162 
11.10小結163 

第12章推薦系統164 

12.1概覽164 
12.2推薦系統的方案和場景164 
12.3業務問題165 
12.4數據獲取和準備166 
12.5訓練模型170 
12.6模型測試和驗證171 
12.7小結175 

第13章使用和發布Azure Marketplace上的模型176 

13.1什麼是機器學習API176 
13.2如何使用Azure Marketplace的API178 
13.3在Azure Marketplace裡發布你自己的模型182 
13.4為你的機器學習模型創建和發布Web服務182 
13.4.1創建評分實驗183
13.4.2把你的實驗發布成Web服務183 
13.5獲取API密鑰和OData端點信息184 
13.6把你的模型發佈為Azure Marketplace裡的API184 
13.7小結186 

第14章Cortana分析187 

14.1Cortana分析套件是什麼187 
14.2Cortana分析套件的功能187 
14.3示例場景189 
14.4小結190