機器學習實務|資料科學工作流程與應用程式開發及最佳化 (Machine Learning in Production: Developing and Optimizing Data Science Workflows and Applications)

Andrew Kelleher, Adam Kelleher 著 楊尊一 譯

買這商品的人也買了...

商品描述

“這本書介紹機器學習與資料科學,聯結工程師與資料科學家,協助將相關技術應用在實務,確保你的投入能真正解決問題,以及提供實際應用時的最佳化技巧。”
-摘自系列編輯Paul Dix的序

成功資料科學專案的實務技巧

本書是資料科學與機器學習從業者解決實務問題技術的速成課。作者Andrew與Adam展示如何快速的產出重要結果;持續讓投資報酬率最大化;避免過度期待的工具與不必要的複雜性;以最簡單、最低風險的方式完成工作。

作者以豐富的經驗幫助你提出實用並完整的執行方案,透過直接查詢、聚合、視覺化進行工作,教授不可或缺的錯誤分析方法以避免錯誤的結論。內容涵蓋了線性回歸、分類、聚類、貝葉斯推理等機器學習技術,幫助你為每個專案選擇正確的演算法。有關硬體、基礎設施、分散式系統的結論為實務環境最佳化提供寶貴的參考指南。

‧利用敏捷方法聚焦於專案的小範圍與有效開發
‧以Python實務範例學習
‧由簡單的啟發開始,隨著資料管道的成熟而改善
‧以基本的資料視覺化技術展示成果
‧掌握線性廻歸、隨機森林、分類、群集、過適等關鍵機器學習技術
‧學習基本圖模型與貝葉斯推斷
‧認識機器學習模型中的關聯與因果
 

作者簡介

Andrew Kelleher 是Venmo的軟體工程師與分散式系統架構師,曾經任職於BuzzFeed,負責資料管道與演算法實作的最佳化。

Adam Kelleher 在擔任BuzzFeed的首席資料科學家與哥倫比亞大學的兼任教授時寫作本書。他於2018年五月擔任Barclays的首席資料科學家並在哥大教授因果論與機器學習。

目錄大綱


 前言
 關於作者

【PART I 基本結構】

chapter 01 資料科學家的角色
  1.1 介紹
  1.2 資料科學家的角色
  1.3 結論

chapter 02 專案工作流程
  2.1 介紹
  2.2 資料團隊背景
  2.3 敏捷開發與產品專注
  2.4 結論

chapter 03 誤差量化
  3.1 介紹
  3.2 量化測量值誤差
  3.3 採樣誤差
  3.4 誤差傳播
  3.5 結論

chapter 04 資料編碼與預處理
  4.1 介紹
  4.2 簡單文字處理
  4.3 資訊損失
  4.4 結論

chapter 05 假設檢定
  5.1 介紹
  5.2 何謂假設?
  5.3 誤差類型
  5.4 P 值與信賴區間
  5.5 多重測試與 "P-hacking"
  5.6 範例
  5.7 規劃與背景
  5.8 結論

chapter 06 資料視覺化
  6.1 介紹
  6.2 分佈與摘要統計
  6.3 時間序列圖
  6.4 圖視覺化
  6.5 結論

【PART II 演算法與架構】

chapter 07 演算法與架構
  7.1 介紹
  7.2 架構
  7.3 模型
  7.4 結論

chapter 08 比較
  8.1 介紹
  8.2 Jaccard 距離
  8.3 MinHash
  8.4 Cosine 相似度
  8.5 馬氏距離
  8.6 結論

chapter 09 迴歸
  9.1 介紹
  9.2 線性最小平方
  9.3 線性迴歸的非線性迴歸
  9.4 隨機森林
  9.5 結論

chapter 10 分類與群集
  10.1 介紹
  10.2 邏輯迴歸
  10.3 貝葉斯推論,單純貝葉斯
  10.4 K 平均
  10.5 領先特徵向量
  10.6 貪婪 Louvain
  10.7 最近鄰居
  10.8 結論

chapter 11 貝葉斯網路
  11.1 介紹
  11.2 因果圖、條件獨立、Markovity
  11.3 D 分離與 Markov 性質
  11.4 貝葉斯網路因果圖
  11.5 模型適配
  11.6 結論

chapter 12 降維與潛在變項模型
  12.1 介紹
  12.2 先驗
  12.3 因素分析
  12.4 主成分分析
  12.5 獨立成分分析
  12.6 隱含狄利克雷分布
  12.7 結論

chapter 13 因果推論
  13.1 介紹
  13.2 實驗
  13.3 觀察:一個例子
  13.4 控制阻斷非因果路徑
  13.5 機器學習估計量
  13.6 結論

chapter 14 進階機器學習
  14.1 介紹
  14.2 最佳化
  14.3 神經網路
  14.4 結論

【PART III 瓶頸與最佳化】

chapter 15 硬體基礎知識
  15.1 介紹
  15.2 隨機存取記憶體
  15.3 非揮發性/固定儲存
  15.4 吞吐量
  15.5 處理器
  15.6 結論

chapter 16 軟體基礎知識
  16.1 介紹
  16.2 換頁
  16.3 編索引
  16.4 顆粒度
  16.5 強固性
  16.6 擷取、轉換、載入
  16.7 結論

chapter 17 軟體架構
  17.1 介紹
  17.2 主從架構
  17.3 N 層/服務導向架構
  17.4 微服務
  17.5 一大塊
  17.6 實際案例(混合架構)
  17.7 結論

chapter 18 CAP 定理
  18.1 介紹
  18.2 一致性/同時性
  18.3 可用性
  18.4 分割容錯
  18.5 結論

chapter 19 邏輯網路拓撲節點
  19.1 介紹
  19.2 網路圖
  19.3 負載平衡
  19.4 快取
  19.5 資料庫
  19.6 佇列
  19.7 結論

 參考書目
 索引