數據科學導論

黃曉林 主編,劉斌 副主編,劉欽、陳穎、葛雲 編著

  • 出版商: 清華大學
  • 出版日期: 2025-07-01
  • 售價: $294
  • 語言: 簡體中文
  • ISBN: 7302696470
  • ISBN-13: 9787302696476
  • 相關分類: Python
  • 下單後立即進貨 (約4週~6週)

  • 數據科學導論-preview-1
  • 數據科學導論-preview-2
  • 數據科學導論-preview-3
  • 數據科學導論-preview-4
  • 數據科學導論-preview-5
  • 數據科學導論-preview-6
  • 數據科學導論-preview-7
數據科學導論-preview-1

相關主題

商品描述

"本書是對數據科學的導論性介紹,力求簡潔、易懂,包含了豐富的案例。本書可作為 高等院從數據科學的“科學”性出發,著重介紹數據科學項目的規範化流程以及各步驟所涉及的數據科學基本概念與原理。全書共包含六大部分:問題與目標、數據獲取、Python基礎、探索性數據分析、建模與性能評估、結果展示。 本書可作為大專院校數據科學相關專業的導論性教材或參考書,也適合所有對數據科學感興趣的學生和社會讀者自學。本書配套的慕課“探索數據的奧秘”已在中國大學 MOOC網上線。"

作者簡介

"黃曉林,南京大學副教授、碩導。長期從事信號處理與數據分析工作,講授“探索數據的奧秘”(江蘇省一流本科課程)“數據科學導論”“計算方法”“數據庫應用”等課程。近年來發表SCI學術論文30余篇。主持縱向科研項目4項,參與國家和省重點研發計劃等5項。獲國家授權發明專利5項,軟件著作權1項。獲國家級教學成果二等獎1項,江蘇省教學成果一等獎1項。出版數據科學方面教材1部。劉斌,南京大學教授、博導。長期從事半導體物理與器件研究,講授“半導體物理與器件”“高等半導體物理”等課程。主持國家重點研發計劃項目課題,國家自然科學基金項目,“973”、“863”計劃子課題等十余項。發表SCI收錄學術論文250余篇,申請/授權發明專利80余項。獲國家級教學成果二等獎1項,省部級科技成果獎3項。出版半導體物理方面專著5部/章節,數據科學方面教材1部。劉欽,南京大學副教授、碩導。長期從事圖像視頻處理研究等工作,講授“軟件工程與計算機 I ”“軟件工程與計算 II”“移動互聯網軟件工程”等課程。發表SCI學術論文20多篇。主持縱向科研項目2項,獲國家授權發明專利1項,軟件著作權1項。出版軟件工程方面教材2部。陳穎,南京大學副教授、碩導。長期從事生物醫學圖像處理及深度學習網絡優化,講授 “生物醫學電子學”。發表SCI論文20余篇,發明專利5項。葛雲,南京大學教授、博導。從事醫學人工智能和醫學物理工作,講授“醫學物理”“數據科學導論”等課程。主持省重點科研項目3項,發表學術論文40多篇。"

目錄大綱

目錄

第1章緒論

1.1為什麼要研究數據科學

1.2基本概念

1.2.1數據

1.2.2大數據

1.2.3數據科學

1.3數據科學項目涉及的人員及其任務

1.4數據科學項目流程

1.4.1確定問題

1.4.2制定目標

1.4.3搜集數據

1.4.4探索性數據分析

1.4.5建立模型

1.4.6性能評價

1.4.7結果展示

1.4.8部署模型

1.5數據科學項目中的數據流

1.6本書內容、采用工具和目標人群

思考題

第2章問題與目標

2.1用戶層面的問題與目標

2.2數據科學層面的問題與目標

思考題

第3章數據獲取

3.1前提假設與數據方案設計

3.1.1前提假設

3.1.2數據方案設計

3.1.3數據獲取的可行性分析

3.1.4確定數據構成

3.2總體和抽樣

3.2.1總體和個體

3.2.2樣本

3.2.3無偏抽樣

3.2.4抽樣偏差

3.3混雜因素及其避免方法

3.3.1混雜因素和辛普森悖論

3.3.2隨機控制實驗

3.3.3自然實驗

思考題

第4章Python基礎

4.1Python的下載與安裝

4.2常用工具包的下載與安裝

4.3Jupyter Notebook

4.4Python常用數據結構

4.4.1列表

4.4.2元組

4.4.3字典

4.4.4集合

4.4.5numpy.ndarray

4.4.6Pandas.DataFrame

4.5Python基本語法

4.5.1基本命令

4.5.2控制流和相關語法

4.6Python數據導入

4.6.1本地數據導入

4.6.2在線數據導入

4.6.3數據的連續流加載

第5章探索性數據分析

5.1數據檢查

5.1.1數據的意義及規模

5.1.2特征的數據類型及意義

5.1.3初步排除數據泄露

5.2數據預處理

5.2.1缺失處理

5.2.2異常處理

5.2.3冗余處理

5.3描述性統計

5.3.1位置性測度

5.3.2離散性測度

5.3.3圖形化描述統計

思考題

第6章建模與性能評價

6.1統計建模

6.1.1常見的概率密度函數

6.1.2參數估計

6.1.3假設檢驗

6.1.4phacking

6.1.5統計模型的應用場景

6.2回歸模型

6.2.1線性回歸模型

6.2.2線性回歸模型性能評價

6.2.3線性回歸與線性相關

6.2.4多元線性回歸

6.2.5線性回歸模型的適用場合

6.2.6Logistic回歸

6.2.7訓練集測試集劃分

6.2.8應用非數值特征作為輸入時的onehot編碼

6.2.9邏輯回歸模型的適用場合

6.3樸素貝葉斯模型

6.3.1貝葉斯定理

6.3.2高斯模型

6.3.3多項式模型

6.3.4伯努利模型  

6.4分類模型的性能評價

6.4.1混淆矩陣

6.4.2指標權衡

6.4.3應用舉例

6.4.4參數區分性能評價

6.5決策樹

6.5.1決策樹工作原理

6.5.2分類任務決策樹的建模過程

6.5.3分類決策樹應用舉例

6.6人工神經網絡

6.6.1人工神經網絡的基本概念和工作原理

6.6.2人工神經網絡的應用舉例

6.6.3人工神經網絡的適用場合

6.7有監督學習模型與無監督學習模型

6.8Kmeans模型

6.8.1兩個基本概念

6.8.2Kmeans疊代算法

6.9偏差方差權衡

6.9.1偏差方差困境

6.9.2過擬合與欠擬合

6.9.3K折交叉驗證

6.10參數的網格搜索

6.11集成學習

6.11.1孔多塞陪審團定理

6.11.2決策樹集成

思考題

第7章結果展示

7.1區分面向對象的結果展示

7.1.1面向出資方的結果展示

7.1.2面向用戶的結果展示

7.1.3面向數據科學家的結果展示

7.2展示過程中的可視化

7.2.1展示可視化的兩個層面

7.2.2展示可視化的三點基本原則

結語

參考文獻