數據科學導論
黃曉林 主編,劉斌 副主編,劉欽、陳穎、葛雲 編著
相關主題
商品描述
作者簡介
目錄大綱
目錄
第1章緒論
1.1為什麼要研究數據科學
1.2基本概念
1.2.1數據
1.2.2大數據
1.2.3數據科學
1.3數據科學項目涉及的人員及其任務
1.4數據科學項目流程
1.4.1確定問題
1.4.2制定目標
1.4.3搜集數據
1.4.4探索性數據分析
1.4.5建立模型
1.4.6性能評價
1.4.7結果展示
1.4.8部署模型
1.5數據科學項目中的數據流
1.6本書內容、采用工具和目標人群
思考題
第2章問題與目標
2.1用戶層面的問題與目標
2.2數據科學層面的問題與目標
思考題
第3章數據獲取
3.1前提假設與數據方案設計
3.1.1前提假設
3.1.2數據方案設計
3.1.3數據獲取的可行性分析
3.1.4確定數據構成
3.2總體和抽樣
3.2.1總體和個體
3.2.2樣本
3.2.3無偏抽樣
3.2.4抽樣偏差
3.3混雜因素及其避免方法
3.3.1混雜因素和辛普森悖論
3.3.2隨機控制實驗
3.3.3自然實驗
思考題
第4章Python基礎
4.1Python的下載與安裝
4.2常用工具包的下載與安裝
4.3Jupyter Notebook
4.4Python常用數據結構
4.4.1列表
4.4.2元組
4.4.3字典
4.4.4集合
4.4.5numpy.ndarray
4.4.6Pandas.DataFrame
4.5Python基本語法
4.5.1基本命令
4.5.2控制流和相關語法
4.6Python數據導入
4.6.1本地數據導入
4.6.2在線數據導入
4.6.3數據的連續流加載
第5章探索性數據分析
5.1數據檢查
5.1.1數據的意義及規模
5.1.2特征的數據類型及意義
5.1.3初步排除數據泄露
5.2數據預處理
5.2.1缺失處理
5.2.2異常處理
5.2.3冗余處理
5.3描述性統計
5.3.1位置性測度
5.3.2離散性測度
5.3.3圖形化描述統計
思考題
第6章建模與性能評價
6.1統計建模
6.1.1常見的概率密度函數
6.1.2參數估計
6.1.3假設檢驗
6.1.4phacking
6.1.5統計模型的應用場景
6.2回歸模型
6.2.1線性回歸模型
6.2.2線性回歸模型性能評價
6.2.3線性回歸與線性相關
6.2.4多元線性回歸
6.2.5線性回歸模型的適用場合
6.2.6Logistic回歸
6.2.7訓練集測試集劃分
6.2.8應用非數值特征作為輸入時的onehot編碼
6.2.9邏輯回歸模型的適用場合
6.3樸素貝葉斯模型
6.3.1貝葉斯定理
6.3.2高斯模型
6.3.3多項式模型
6.3.4伯努利模型
6.4分類模型的性能評價
6.4.1混淆矩陣
6.4.2指標權衡
6.4.3應用舉例
6.4.4參數區分性能評價
6.5決策樹
6.5.1決策樹工作原理
6.5.2分類任務決策樹的建模過程
6.5.3分類決策樹應用舉例
6.6人工神經網絡
6.6.1人工神經網絡的基本概念和工作原理
6.6.2人工神經網絡的應用舉例
6.6.3人工神經網絡的適用場合
6.7有監督學習模型與無監督學習模型
6.8Kmeans模型
6.8.1兩個基本概念
6.8.2Kmeans疊代算法
6.9偏差方差權衡
6.9.1偏差方差困境
6.9.2過擬合與欠擬合
6.9.3K折交叉驗證
6.10參數的網格搜索
6.11集成學習
6.11.1孔多塞陪審團定理
6.11.2決策樹集成
思考題
第7章結果展示
7.1區分面向對象的結果展示
7.1.1面向出資方的結果展示
7.1.2面向用戶的結果展示
7.1.3面向數據科學家的結果展示
7.2展示過程中的可視化
7.2.1展示可視化的兩個層面
7.2.2展示可視化的三點基本原則
結語
參考文獻