Python機器學習及實踐——從零開始通往Kaggle競賽之路(2022年度版)

範淼、徐晟桐

  • 出版商: 清華大學
  • 出版日期: 2022-10-01
  • 定價: $594
  • 售價: 7.5$446
  • 語言: 簡體中文
  • ISBN: 7302614245
  • ISBN-13: 9787302614241
  • 相關分類: Machine Learning
  • 立即出貨 (庫存 < 3)

  • Python機器學習及實踐——從零開始通往Kaggle競賽之路(2022年度版)-preview-1
  • Python機器學習及實踐——從零開始通往Kaggle競賽之路(2022年度版)-preview-2
  • Python機器學習及實踐——從零開始通往Kaggle競賽之路(2022年度版)-preview-3
Python機器學習及實踐——從零開始通往Kaggle競賽之路(2022年度版)-preview-1

買這商品的人也買了...

商品描述

本書在不涉及大量數學模型與復雜編程知識的前提下,從零開始逐步帶領讀者熟悉並掌握當下流行的基於Python 3的數據分析,以及支持單機、深度和分佈式機器學習的開源程序庫,如pandas、Scikitlearn、PyTorch、TensorFlow、PaddlePaddle、PySparkML等。全書分4部分。入門篇包括對全書核心概念的指南性介紹,以及在多種主流操作系統(Windows、macOS、Ubuntu)上配置基本編程環境的詳細說明。基礎篇涵蓋Python 3的編程基礎、基於pandas的數據分析,以及使用Scikitlearn解決大量經典的單機(單核/多核)機器學習問題。進階篇介紹如何使用PyTorch、TensorFlow、PaddlePaddle搭建多種深度學習網絡框架,以及如何基於PySpark的ML編程庫完成一些常見的分佈式機器學習任務。實踐篇利用全書所講授的Python編程、數據分析、機器學習知識,幫助讀者挑戰和參與Kaggle多種類型的競賽實戰,同時介紹如何使用Git在Gitee、GitHub平臺上維護和管理日常代碼與編程項目。 本書適合所有對人工智能領域,特別是機器學習、數據挖掘、自然語言處理等技術及其實踐感興趣的初學者。

目錄大綱

目錄

第1部分入門篇

●第1章全書指南3

1.1Python編程3

1.2數據分析5

1.3機器學習6

1.3.1任務9

1.3.2經驗10

1.3.3性能11

1.4Kaggle競賽13

1.5Git代碼管理14

1.6章末小結15

●第2章基本環境搭建與配置16

2.1Windows操作系統下基本環境的搭建與配置16

2.1.1查看Windows的版本與原始配置16

2.1.2下載並安裝Anaconda3(Windows)17

2.1.3使用Anaconda Navigator創建虛擬環境python_env(Windows)19

2.1.4在虛擬環境python_env下使用Anaconda Navigator安裝

Jupyter Notebook與PyCharm Professional(Windows)20

2.2macOS操作系統下基本環境的搭建與配置21

2.2.1查看macOS的版本與原始配置21

2.2.2下載並安裝Anaconda3(macOS)23

2.2.3使用Anaconda Navigator創建虛擬環境python_env(macOS)24

2.2.4在虛擬環境python_env下使用Anaconda Navigator安裝

Jupyter Notebook與PyCharm Professional(macOS)24〖1〗Python機器學習及實踐——從零開始通往Kaggle競賽之路(2022年度版)〖1〗目錄2.3Ubuntu操作系統下基本環境的搭建與配置26

2.3.1查看Ubuntu的版本與原始配置26

2.3.2下載並安裝Anaconda3(Ubuntu)27

2.3.3在終端中創建虛擬環境python_env(Ubuntu)28

2.3.4在虛擬環境python_env下使用conda命令安裝Jupyter 

Notebook(Ubuntu)29

2.4Jupyter Notebook使用簡介31

2.4.1在虛擬環境python_env下啟動Jupyter Notebook31

2.4.2創建一個.ipynb文件32

2.4.3試運行.ipynb文件內的Python 3程序33

2.5PyCharm使用簡介34

2.5.1在虛擬環境python_env下啟動PyCharm34

2.5.2基於虛擬環境python_env的Python 3.8解釋器創建一個

.py文件35

2.5.3試運行.py文件內的Python 3程序35

2.6章末小結37

第2部分基礎篇

●第3章Python編程基礎41

3.1Python編程環境配置41

3.1.1基於命令行/終端的交互式編程環境41

3.1.2基於Web的交互式開發環境42

3.1.3集成式開發環境43

3.2Python基本語法44

3.2.1賦值44

3.2.2註釋45

3.2.3縮進46

3.3Python數據類型46

3.4Python數據運算49

3.5Python流程控制53

3.5.1分支語句53

3.5.2循環控制55

3.6Python函數設計56

3.7Python面向對象編程57

3.8Python編程庫(包)導入60

3.9Python編程綜合實踐62

3.10章末小結63

●第4章pandas數據分析64

4.1pandas環境配置65

4.1.1使用Anaconda Navigator搭建和配置環境66

4.1.2使用conda命令搭建和配置環境66

4.2pandas核心數據結構67

4.2.1Series68

4.2.2DataFrame69

4.3pandas讀取/寫入文件數據70

4.3.1讀取/寫入CSV文件數據70

4.3.2讀取/寫入JSON文件數據73

4.3.3讀取/寫入Excel文件數據76

4.4pandas數據分析的常用功能80

4.4.1添加數據80

4.4.2刪除數據83

4.4.3查詢/篩選數據84

4.4.4修改數據86

4.4.5數據統計87

4.4.6數據排序89

4.4.7函數應用90

4.5pandas數據合並92

4.6pandas數據清洗93

4.7pandas數據分組與聚合95

4.8章末小結97

●第5章Scikitlearn單機機器學習98

5.1Scikitlearn環境配置99

5.1.1使用Anaconda Navigator搭建和配置環境100

5.1.2使用conda命令搭建和配置環境100

5.2Scikitlearn無監督學習102

5.2.1降維學習與可視化102

5.2.2聚類算法113

5.3Scikitlearn監督學習模型121

5.3.1分類預測121

5.3.2數值回歸141

5.4Scikitlearn半監督學習模型154

5.4.1自學習框架155

5.4.2標簽傳播算法157

5.5單機機器學習模型的常用優化技巧159

5.5.1交叉驗證160

5.5.2特徵工程162

5.5.3參數正則化170

5.5.4超參數尋優174

5.5.5並行加速訓練176

5.6章末小結179

第3部分進階篇

●第6章PyTorch/TensorFlow/PaddlePaddle深度學習185

6.1PyTorch/TensorFlow/PaddlePaddle環境配置187

6.2前饋神經網絡191

6.2.1前饋神經網絡的PyTorch實踐192

6.2.2前饋神經網絡的TensorFlow實踐197

6.2.3前饋神經網絡的PaddlePaddle實踐199

6.3捲積神經網絡202

6.3.1捲積神經網絡的PyTorch實踐204

6.3.2捲積神經網絡的TensorFlow實踐208

6.3.3捲積神經網絡的PaddlePaddle實踐211

6.4循環神經網絡214

6.4.1循環神經網絡的PyTorch實踐216

6.4.2循環神經網絡的TensorFlow實踐220

6.4.3循環神經網絡的PaddlePaddle實踐222

6.5自動編碼器226

6.5.1自動編碼器的PyTorch實踐227

6.5.2自動編碼器的TensorFlow實踐231

6.5.3自動編碼器的PaddlePaddle實踐234

6.6神經網絡模型的常用優化技巧238

6.6.1隨機失活238

6.6.2批量標準化249

6.7章末小結260

●第7章PySparkML分佈式機器學習262

7.1PySpark環境配置264

7.1.1使用Anaconda Navigator搭建和配置環境264

7.1.2使用conda命令搭建和配置環境265

7.1.3安裝JRE267

7.2PySpark分佈式數據結構268

7.2.1RDD269

7.2.2DataFrame271

7.3PySpark分佈式特徵工程273

7.3.1特徵抽取273

7.3.2特徵轉換279

7.4PySparkML分佈式機器學習模型284

7.5分佈式機器學習模型的常用優化技巧292

7.5.1留一驗證293

7.5.2K折交叉驗證295

7.6章末小結297

第4部分實踐篇

●第8章Kaggle競賽實踐301

8.1泰坦尼克號罹難乘客預測302

8.1.1數據分析303

8.1.2數據預處理305

8.1.3模型設計與尋優306

8.1.4提交測試307

8.2Ames房產價值評估308

8.2.1數據分析309

8.2.2數據預處理315

8.2.3模型設計與尋優316

8.2.4提交測試317

8.3推特短文本分類318

8.3.1數據分析320

8.3.2數據預處理321

8.3.3模型設計與尋優322

8.3.4提交測試323

8.4CIFAR100圖像識別324

8.4.1數據分析326

8.4.2數據預處理327

8.4.3模型設計與尋優328

8.4.4提交測試331

8.5章末小結333

●第9章Git代碼管理334

9.1Git本地環境搭建335

9.1.1Windows下Git工具的安裝與配置335

9.1.2macOS下Git工具的安裝與配置336

9.1.3Ubuntu下Git工具的安裝與配置336

9.2Git遠程倉庫配置337

9.2.1GitHub介紹337

9.2.2GitHub遠程倉庫的創建與配置338

9.2.3Gitee介紹339

9.2.4Gitee遠程倉庫的創建與配置339

9.3Git基本指令340

9.3.1克隆倉庫340

9.3.2提交修改341

9.3.3遠程推送343

9.4Git分支管理343

9.4.1創建分支344

9.4.2分支合並345

9.4.3合並沖突346

9.4.4刪除分支347

9.5貢獻Git項目348

9.5.1Fork項目348

9.5.2本地克隆、修改與推送349

9.5.3發起拉取請求349

9.6章末小結351

●後記352

●第1章簡介篇1

1.1機器學習綜述1

1.1.1任務3

1.1.2經驗5

1.1.3性能5

1.2Python編程庫8

1.2.1為什麽使用Python8

1.2.2Python機器學習的優勢9

1.2.3NumPy & SciPy10

1.2.4Matplotlib11

1.2.5Scikitlearn11

1.2.6Pandas11

1.2.7Anaconda12

1.3Python環境配置12

1.3.1Windows系統環境12

1.3.2Mac OS 系統環境17

1.4Python編程基礎18

1.4.1Python基本語法19

1.4.2Python 數據類型20

1.4.3Python 數據運算22

1.4.4Python 流程控制26

1.4.5Python 函數(模塊)設計28

1.4.6Python 編程庫(包)的導入29

1.4.7Python 基礎綜合實踐30

1.5章末小結33●第2章基礎篇34

2.1監督學習經典模型34

2.1.1分類學習35

2.1.2回歸預測64

2.2無監督學習經典模型81

2.2.1數據聚類81

2.2.2特徵降維91

2.3章末小結97

●第3章進階篇98

3.1模型實用技巧98

3.1.1特徵提升99

3.1.2模型正則化111

3.1.3模型檢驗121

3.1.4超參數搜索122

3.2流行庫/模型實踐129

3.2.1自然語言處理包(NLTK)131

3.2.2詞向量(Word2Vec)技術133

3.2.3XGBoost模型138

3.2.4Tensorflow框架140

3.3章末小結152

●第4章實戰篇153

4.1Kaggle平臺簡介153

4.2Titanic罹難乘客預測157

4.3IMDB影評得分估計165

4.4MNIST手寫體數字圖片識別174

4.5章末小結180

●後記181

●參考文獻182