相關主題
商品描述
本書主要講述數據科學的方法和實踐案例.全書分為5篇共16章,概述篇內容包括數據科學的起源、工作內容、工作流程、數據科學家的培養和數據驅動的組織文化.基礎知識篇內容包括統計學基礎、機器學習和神經網絡與深度學習.技術實踐篇內容包括數據科學的流程、數據存儲和處理和機器學習技術棧.數據分析篇內容包括產品分析、度量指標和A/B實驗.領域應用篇內容包括搜索 廣告模型, 、廣告和搜索領域的應用場景以及自然語言模型與應用場景和前沿的大語言模型.本書的讀者對象為有一定的數學基礎、對數據科學感興趣或做過部分AI相關項目的讀者,以及高校學習量化學科的本科生、研究生和博士生,包含並不限於數學、計算機科學、物理學、電子信息工程等專業以及正在企業從事數據分析和模型工作的讀者.本書的編寫特色為方法和實踐相結合,既包含方法和技能的簡述,也包含在成熟行業領域的應用.編者憑借十幾年的工作經歷和研究成果,深入淺出地為讀者描述了數據科學的現狀、應用和前沿發展.
作者簡介
衛然 博士,人工智能與推薦系統專家,現任Airbnb機器學習工程師,專註於個性化排序與檢索系統.曾在Meta、Coupang、Pinterest、Twitter等科技公司主導視頻推薦、搜索排序與廣告系統模型開發,並在創業公司期間探索生成式大模型(LLM)的產品化路徑,具備深厚的工程與建模背景, 衛博士畢業於美國俄亥俄州立大學井獲得統計學博士學位,在推薦系統、社交網絡圖模型與生成式AI等領域有豐富實戰經驗,熱衷於推動LLM在搜索與推薦場景中的應用落地。
目錄大綱
前言
第1篇 概述
第1章 資料科學簡介
1.1 數據科學的起源
1.2 資料科學的工作內容
1.2.1 決策支持
1.2.2 產品分析
1.2.3 策略模型
1.2.4 生成式AI
1.3 資料科學的工作流程簡介
1.4 資料科學家的培養
1.5 數據驅動的組織文化
1.5.1 打造數據平臺和工具
1.5.2 尋找資料科學的應用場景
1.5.3 合理的組織架構
思考題
第2篇 基礎知識
第2章 統計學基礎
2.1 統計分佈
2.1.1 常用的統計概念
2.1.2 常用的統計分佈
2.2 參數估計
2.2.1 矩估計
2.2.2 極大似然估計
2.2.3 貝葉斯估計
2.3 顯著性檢定
2.4 信賴區間
思考題
第3章 機器學習
3.1 機器學習的概念
3.1.1 損失函數
3.1.2 最佳化演算法
3.1.3 模型訓練
3.1.4 評估指標
3.1.5 回歸任務的評估指標
3.1.6 分類任務的評估指標
3.2 監督學習
3.2.1 線性迴歸
3.2.2 邏輯斯諦回歸
3.2.3 決策樹
3.2.4 隨機森林
3.2.5 XGBoost
3.2.6 支援向量機
3.2.7 k近鄰
3.3 無監督學習
3.3.1 聚類
3.3.2 降維
3.3.3 向量搜索
3.4 強化學習
3.4.1 多臂老虎機問題
3.4.2 馬可夫決策過程
思考題
第4章 神經網路與深度學習
4.1 神經網路的概念
4.1.1 神經網路的基礎
4.1.2 模型超參數與正規化
4.1.3 最佳化演算法
4.1.4 批歸一化
4.2 神經網路模型
4.2.1 多層感知器
……
第3篇 技術實踐
第4篇 數據分析
第5篇 領域應用
