實用機器學習 (Real-world Machine Learning) 实用机器学习

亨里克·布林克 (Henrik Brink), 約瑟夫 W.理查茲 (Joseph W.Richards), 馬克·弗特羅夫 (Mark Fetherolf)

  • 出版商: 機械工業
  • 出版日期: 2017-06-01
  • 定價: $414
  • 售價: 8.0$331
  • 語言: 簡體中文
  • 頁數: 207
  • 裝訂: 平裝
  • ISBN: 7030533488
  • ISBN-13: 9787111569220
  • 相關分類: Machine Learning
  • 此書翻譯自: Real-World Machine Learning
  • 銷售排行: 🥇 2019/6 簡體中文書 銷售排行 第 1 名

    立即出貨

買這商品的人也買了...

商品描述

本書介紹了實用機器學習的工作流程,主要從實用角度進行了描述,沒有數學公式和推導,涵蓋了資料收集與處理、模型構建、評價和優化、特徵的識別、提取和選擇技術、高級特徵工程、資料視覺化技術以及模型的部署和安裝,結合3個真實案例全面、詳細地介紹了整個機器學習流程,最後還介紹了機器學習流程的擴展和大數據應用。

本書可以作為程式設計師、資料分析師、統計學家、資料科學家解決實際問題的參考書,也可以作為機器學習愛好者學習和應用的參考書,還可以作為非專業學生的機器學習入門參考書,以及專業學生的實踐參考書。

隨著Alphago 在圍棋領域高奏凱歌,人工智能領域已成為當前引人註目的風口,而機器學習又是這風口中的風頭正勁的熱點,本書從實戰角度剖析了機器學習的知識原理,讀者無需擔心遇到難懂的數學公式和推導,就能夠將機器學習的知識應用在自己熟悉的領域。

《實用機器學習》還包含了三個機器學習真是應用的綜合案例,本書所有程式碼資源都可以通過網絡下載,讀者還可以登錄GITHUB與全球的機器學習愛好者共同交流本書的學習體驗。

作者簡介

Henrik Brink 是一名資料科學家,對應用機器學習進行工業和學術應用開發有著豐富的經驗。

Joseph Richards 也是一位資料科學家,具有應用統計和預測分析方面的專業知識。

Henrik和Joseph是Wise.io的聯合創立者,Wise.io是一家提供工業機器學習解決方案的開發商。

Mark Fetherolf 是資料管理和預測分析公司Numinary Data Science的創始人和總裁。他曾在社會科學研究、化學工程、信息系統性能、容量規劃、有線電視和在線廣告應用等方面擔任統計師和分析資料庫開發人員。

目錄大綱

推薦序
作者序
致謝
譯者序
關於本書
作者簡介
關於封面插圖
第1部分機器學習工作流程
第1章什麼是機器學習
1.1理解機器學習
1.2使用數據進行決策
1.2.1傳統方法
1.2.2機器學習方法
1.2.3機器學習的五大優勢
1.2.4面臨的挑戰
1.3跟踪機器學習流程:從數據到部署
1.3.1數據集合和預處理
1.3.2數據構建模型
1.3.3模型性能評估
1.3.4模型性能優化
1.4提高模型性能的高級技巧
1.4.1數據預處理和特徵工程
1.4.2用在線算法持續改進模型
1.4.3具有數據量和速度的規模化模型
1.5總結
1.6本章術語
第2章實用數據處理
2.1起步:數據收集
2.1.1應包含哪些特徵
2.1.2如何獲得目標變量的真實值
2.1.3需要多少訓練數據
2.1.4訓練集是否有足夠的代表性
2.2數據預處理
2.2.1分類特徵
2.2.2缺失數據處理
2.2.3簡單特徵工程
2.2.4數據規範化
2.3數據可視化
2.3.1馬賽克圖
2.3.2盒圖
2.3.3密度圖
2.3.4散點圖
2.4總結
2.5本章術語
第3章建 和預測
3.1基礎機器學習建模
3.1.1尋找輸入和目標間的關係
3.1.2尋求好模型的目的
3.1.3建模方法類型
3.1.4有監督和無監督學習
3.2分類:把數據預測到桶中
3.2.1構建分類器並預測
3.2.2非線性數據與復雜分類
3.2.3多類別分類
3.3回歸:預測數值型數據
3.3.1構建回歸器並預測
3.3.2對複雜的非線性數據進行回歸
3.4總結
3.5本章術語
第4章模型評估與優化
4.1模型泛化:評估新數據的預測準確性
4.1.1問題:過度擬合與樂觀模型
4.1.2解決方案:交叉驗證
4.1.3交叉驗證的注意事項
4.2分類模型評估
4.2.1分類精度和混淆矩陣
4.2.2準確度權衡與ROC曲線
4.2.3多類別分類
4.3回歸模型評估
4.3.1使用簡單回歸性能指標
4.3.2檢驗殘差
4.4參數調整優化模型
4.4.1機器學習算法和它們的調整參數
4.4.2網格搜索
4.5總結
4.6本章術語
第5章基礎特徵工程
5.1動機:為什麼特徵工程很有用
5.1.1什麼是特徵工程
5.1.2使用特徵工 的5個原因
5.1.3特徵工程與領域專業知識
5.2基本特徵工程過程
5.2.1實例:事件推薦
5.2.2處理日期和時間特徵
5.2.3處理簡單文本特徵
5.3特徵選擇
5.3.1前向選擇和反向消除
5.3.2數據探索的特徵選擇
5.3.3實用特徵選擇實例
5.4總結
5.5本章術語
第2部分實際應用
第6章案例:NYC出租車數據
6.1數據:NYC出租車旅程和收費信息
6.1.1數據可視化
6.1.2定義問題並準備數據
6.2建模
6.2.1基本線性模型
6.2.2非線性分類器
6.2.3包含分類特徵
6.2.4包含日期—時間特徵
6.2.5模型的啟示
6.3總結
6.4本章術語
第7章高級特徵工程
7.1高級文本特徵
7.1.1詞袋模型
7.1.2主題建模
7.1.3內容拓展
7.2圖像特徵
7.2.1簡單圖像特徵
7.2.2提取物體和形狀
7.3時間序列特徵
7.3. 1時間序列數據的類型
7.3.2時間序列數據的預測
7.3.3經典時間序列特徵
7.3.4事件流的特徵工程
7.4總結
7.5本章術語
第8章NLP高級案例:電影評論情感預測
8.1研究數據 應用場景
8.1.1數據集初探
8.1.2檢查數據
8.1.3應用場景有哪些
8.2提取基本NLP特徵並構建初始模型
8.2.1詞袋特徵
8.2.2用樸素貝葉斯算法構建模型
8.2.3tf— idf算法規範詞袋特徵
8.2.4優化模型參數
8.3高級算法和模型部署的考慮
8.3.1word2vec特徵
8.3.2隨機森林模型
8.4總結
8.5本章術語
第9章擴展機器學習流程
9.1擴展前需考慮的問題
9.1 .1識別關鍵點
9.1.2選取訓練數據子樣本代替擴展性
9.1.3可擴展的數據管理系統
9.2機器學習建模流程擴展
9.3預測擴展
9.3.1預測容量擴展
9.3.2預測速度擴展
9.4總結
9.5本章術語
第10章案例:數字顯示廣告
10.1顯示廣告
10.2數字廣告數據
10.3特徵工程和建模策略
10.4數據大小和形狀
10.5奇異值分解
10.6資源估計和優化
10.7建模
10.8K近鄰算法
10.9隨機森林算法
10.10其他實用考慮
10.11總結
10.12本章術語
10.13摘要和結論
附錄常用機器學習算法