用Python動手學統計學(第2版)

[日]馬場真哉

  • 用Python動手學統計學(第2版)-preview-1
  • 用Python動手學統計學(第2版)-preview-2
用Python動手學統計學(第2版)-preview-1

相關主題

商品描述

本書是統計學的入門書,對同一個知識點分別使用文字說明、數學式和Python示例代碼進行講解,循序漸進地介紹了統計學和Python的基礎知識、描述統計、統計推斷、假設檢驗、正態線性模型和廣義線性模型等統計模型,以及機器學習等。通過閱讀本書,讀者不僅可以深刻理解統計學術語、統計分析方法和預測方法等,還可以學到前沿的機器學習知識,以及如何使用Python實現數據可視化和建模等。

本書結構清晰、直觀易懂,適合統計學和Python的初學者及對數據科學和機器學習感興趣的讀者使用,也可作為高等院校計算機、統計等專業學生的入門書。

作者簡介

[日]馬場真哉:出生於日本兵庫縣,2014年畢業於北海道大學水產科學院。分享統計學基礎與應用、數據分析和Python編程等知識的網站Logics of Blue的管理者。著有《用R學編程和數據分析》《用R和Stan入門數據分析:基於貝葉斯統計建模》《時序分析和狀態空間模型基礎:用R和Stan學習理論和實現》《從均值和方差入門廣義線性模型》《決策分析與預測的應用:從基礎理論到Python實現》等。

目錄大綱

目 錄

第 1章 開始學習統計學1

1-1 統計學2

1-1-1 描述統計2

1-1-2 統計推斷3

1-2 描述統計的必要性4

1-2-1 為什麼需要描述統計4

1-2-2 均值存在的問題4

1-2-3 使用均值以外的指標5

1-2-4 數據可視化5

1-3 統計推斷的必要性6

1-3-1 為什麼需要統計推斷6

1-3-2  術語  總體與樣本6

1-3-3  術語  樣本容量7

1-3-4 推斷的形象描述7

1-3-5 樣本的隨機偏差與區間估計8

1-3-6 判斷與假設檢驗8

1-3-7 模型與推斷8

1-3-8 從線性模型到機器學習9

第 2章 Python與Jupyter Notebook基礎11

2-1 環境搭建12

2-1-1  術語  Python12

2-1-2  術語  Anaconda12

2-1-3  術語  Jupyter Notebook13

2-1-4 安裝Anaconda13

2-1-5 安裝早期版本的Anaconda13

2-1-6  術語  Python編程術語14

2-2 認識Jupyter Notebook15

2-2-1 啟動Jupyter Notebook15

2-2-2 創建新文件16

2-2-3 執行代碼17

2-2-4 保存執行結果17

2-2-5 使用Markdown功能18

2-2-6 退出Jupyter Notebook19

2-2-7 使用Anaconda Prompt19

2-3 Python編程基礎21

2-3-1  實現  四則運算21

2-3-2  實現  其他運算22

2-3-3  實現  註釋22

2-3-4  實現  數據類型23

2-3-5  實現  比較運算25

2-3-6  實現  變量25

2-3-7  實現  函數27

2-3-8  實現  常用的函數28

2-3-9  實現  類與實例30

2-3-10  實現  基於if語句的程序分支32

2-3-11  實現  基於for語句的循環33

2-3-12 編寫易用程序的技巧33

2-4 認識numpy與pandas35

2-4-1  實現  導入外部功能35

2-4-2  術語  numpy與pandas36

2-4-3  實現  列表36

2-4-4  實現  行與列36

2-4-5  實現  數組37

2-4-6  實現  數組的運算38

2-4-7  實現  二維數組38

2-4-8  實現  生成等差數列的方法39

2-4-9  實現  各類數組的生成40

2-4-10  實現  切片41

2-4-11  實現  數據幀43

2-4-12  實現  讀取文件中的數據44

2-4-13  實現  連接數據幀45

2-4-14  實現  取出指定的列46

2-4-15  實現  取出指定的行47

2-4-16  實現  序列49

2-4-17  實現  函數文檔50

第3章 描述統計51

3-1 數據的種類52

3-1-1  術語  觀察、變量52

3-1-2  術語  定量數據、分類數據53

3-1-3  術語  離散型數據、連續型數據53

3-1-4  術語  二值數據、多值數據53

3-1-5  術語  名義尺度、順序尺度、間距尺度、比例尺度54

3-1-6  術語  單變量數據、多變量數據55

3-1-7  術語  時間序列數據、橫截面數據55

3-2 讀懂數學式56

3-2-1 數學式作為表達方式56

3-2-2 用數學式表示樣本56

3-2-3 為什麼要使用數學式57

3-2-4 加法與Σ符號58

3-2-5 用數學式表示樣本均值58

3-2-6 乘法與Π符號59

3-3 頻數分布60

3-3-1 為什麼要學習多種統計方法60

3-3-2  術語  頻數、頻數分布61

3-3-3  術語  組、組中值61

3-3-4  實現  環境準備61

3-3-5  實現  頻數分布62

3-3-6  術語  頻率分布、累積頻數分布、累積頻率分布65

3-3-7  實現  頻率分布、累積頻數分布、累積頻率分布65

3-3-8  術語  直方圖67

3-3-9 用於繪圖的matplotlib、seaborn67

3-3-10  實現  直方圖68

3-3-11  實現  組的大小不同的直方圖69

3-3-12  術語  核密度估計70

3-3-13  實現  核密度估計72

3-4 單變量數據的統計量75

3-4-1  實現  環境準備75

3-4-2 準備實驗數據75

3-4-3  實現  樣本容量77

3-4-4  實現  總和77

3-4-5  實現  樣本均值78

3-4-6  術語  樣本方差79

3-4-7  實現  樣本方差81

3-4-8  術語  無偏方差82

3-4-9  實現  無偏方差83

3-4-10  術語  標準差84

3-4-11  實現  標準差85

3-4-12  術語  變異系數85

3-4-13  實現  變異系數86

3-4-14  術語  標準化87

3-4-15  實現  標準化88

3-4-16  術語  最小值、最大值、中位數、四分位數89

3-4-17  實現  最小值、最大值89

3-4-18  實現  中位數90

3-4-19  實現  四分位數91

3-4-20  實現  眾數92

3-4-21  實現  pandas的describe函數93

3-5 多變量數據的統計量94

3-5-1  實現  環境準備94

3-5-2  實現  準備用於實驗的數據94

3-5-3  術語  協方差95

3-5-4  術語  協方差矩陣96

3-5-5  實現  協方差96

3-5-6  實現  協方差矩陣97

3-5-7  術語  皮爾遜積矩相關系數98

3-5-8  術語  相關矩陣98

3-5-9  實現  皮爾遜積矩相關系數99

3-5-10 相關系數無效的情況99

3-5-11  術語  列聯表100

3-5-12  實現  列聯表100

3-6 分層分析103

3-6-1  術語  分層分析103

3-6-2  術語  整潔數據103

3-6-3  術語  雜亂數據104

3-6-4 雜亂數據的例子105

3-6-5  實現  環境準備106

3-6-6  實現  讀取實驗數據106

3-6-7  實現  分組計算統計量107

3-6-8  實現  企鵝數據108

3-6-9  實現  企鵝數據的分層分析109

3-6-10  實現  缺失數據的處理110

3-6-11  實現  簡單直方圖112

3-6-12  實現  分組直方圖113

3-7 使用圖形114

3-7-1  實現  環境準備114

3-7-2  術語  matplotlib、seaborn114

3-7-3  實現  讀取實驗數據115

3-7-4  實現  散點圖117

3-7-5  實現  圖形的裝飾和保存117

3-7-6  實現  折線圖119

3-7-7  實現  條形圖119

3-7-8  實現  箱形圖120

3-7-9  實現  小提琴圖121

3-7-10  術語  軸級函數與圖級函數122

3-7-11  實現  基於種類和性別的小提琴圖124

3-7-12  實現  基於種類、島名和性別的小提琴圖125

3-7-13  實現  散點圖矩陣126

第4章 概率論與概率分布127

4-1 什麼是概率論128

4-1-1 為什麼要學習概率論128

4-1-2 第4章的內容脈絡129

4-1-3  術語  集合130

4-1-4  術語  元素130

4-1-5  術語  集合的外延表示與內涵表示130

4-1-6  術語  子集130

4-1-7  術語  維恩圖131

4-1-8  術語  交集與並集131

4-1-9  術語  差集132

4-1-10  術語  空集132

4-1-11  術語  全集133

4-1-12  術語  補集133

4-1-13  術語  樣本點、樣本空間、事件133

4-1-14  術語  互斥事件134

4-1-15 通過擲骰子聯想到的各種概率135

4-1-16  術語  概率的公理化定義135

4-1-17 用頻率解釋概率135

4-1-18 主觀概率學派136

4-1-19  術語  概率的加法定理137

4-1-20  術語  條件概率137

4-1-21  術語  概率的乘法定理138

4-1-22  術語  獨立事件139

4-2 什麼是概率分布140

4-2-1  術語  隨機變量與樣本值140

4-2-2  術語  離散隨機變量與連續隨機變量141

4-2-3  術語  概率分布141

4-2-4  術語  概率質量函數141

4-2-5  術語  均勻分布(離散型)143

4-2-6  術語  概率密度144

4-2-7  術語  概率密度函數144

4-2-8 概率的總和與概率密度積分的聯系145

4-2-9  術語  均勻分布(連續型)147

4-2-10  術語  累積分布函數147

4-2-11 均勻分布的累積分布函數148

4-2-12  術語  百分位數148

4-2-13  術語  期望值149

4-2-14  術語  隨機變量的方差151

4-2-15 均勻分布的期望值與方差152

4-2-16  術語  多元概率分布153

4-2-17  術語  聯合概率分布154

4-2-18  術語  邊緣化、邊緣分布154

4-2-19  術語  條件概率分布155

4-2-20  術語  隨機變量的獨立155

4-2-21 二元概率分布的例子156

4-2-22  術語  隨機變量的協方差與相關系數157

4-2-23  術語  獨立同分布157

4-3 二項分布159

4-3-1  術語  試驗159

4-3-2  術語  二值隨機變量159

4-3-3  術語  伯努利試驗160

4-3-4  術語  成功概率160

4-3-5  術語  伯努利分布160

4-3-6 設計程序來模擬抽簽161

4-3-7  實現  環境準備161

4-3-8  實現  抽1張便箋的模擬161

4-3-9  實現  抽10張便箋的模擬163

4-3-10  實現  抽10張便箋並重復10 000 次的模擬165

4-3-11  術語  二項分布167

4-3-12  實現  二項分布168

4-3-13  實現  生成服從二項分布的隨機數171

4-3-14  實現  二項分布的期望值與方差172

4-3-15  實現  二項分布的累積分布函數173

4-3-16  實現  二項分布的百分位數174

4-3-17  實現  二項分布的右側概率175

4-4 正態分布176

4-4-1  實現  環境準備176

4-4-2  術語  正態分布176

4-4-3  實現  正態分布的概率密度函數177

4-4-4 正態分布的由來180

4-4-5  實現  誤差累積的模擬180

4-4-6  術語  中心極限定理183

4-4-7 正態分布的性質184

4-4-8  實現  生成服從正態分布的隨機數185

4-4-9  實現  正態分布的累積分布函數185

4-4-10  實現  正態分布的百分位數186

4-4-11  實現  正態分布的右側概率186

第5章 統計推斷187

5-1 統計推斷的思路188

5-1-1  術語  抽樣188

5-1-2  術語  簡單隨機抽樣188

5-1-3 湖中釣魚示例189

5-1-4 樣本與隨機變量189

5-1-5 作為抽樣過程的總體分布190

5-1-6 用術語來描述抽樣過程191

5-1-7 模型的應用191

5-1-8  術語  甕模型192

5-1-9 把抽樣過程抽象化的模型192

5-1-10 總體分布與總體的頻率分布193

5-1-11 更現實的湖中釣魚示例194

5-1-12 做假設194

5-1-13 假設總體服從正態分布195

5-1-14  術語  概率分布的參數195

5-1-15  術語  參數模型與非參數模型195

5-1-16  術語  統計推斷196

5-1-17 假設總體分布是正態分布之後的做法196

5-1-18 小結:統計推斷的思路196

5-1-19 從5-2節開始的解說流程197

5-1-20 所做的假設是否恰當197

5-2 用Python模擬抽樣199

5-2-1  實現  環境準備199

5-2-2 抽樣過程199

5-2-3  實現  在只有5條魚的湖中抽樣200

5-2-4  實現  從魚較多的湖中抽樣201

5-2-5  實現  總體分布的可視化202

5-2-6  實現  對比總體分布和正態分布的概率密度函數203

5-2-7  實現  抽樣過程的抽象描述205

5-2-8 補充討論206

5-2-9 假設總體服從正態分布是否恰當206

5-3 估計總體均值208

5-3-1  實現  環境準備208

5-3-2  術語  總體均值、總體方差、總體標準差208

5-3-3  術語  估計量、估計值209

5-3-4 樣本均值作為總體均值的估計量209

5-3-5 模擬的內容209

5-3-6  實現  載入總體數據210

5-3-7  實現  計算樣本均值210

5-3-8  實現  多次計算樣本均值211

5-3-9  實現  樣本均值的均值212

5-3-10  術語  無偏性、無偏估計量212

5-3-11 樣本均值作為總體均值的無偏估計量213

5-3-12  實現  編寫一個多次計算樣本均值的函數214

5-3-13  實現  不同樣本容量的樣本均值的分布215

5-3-14 計算樣本均值的標準差217

5-3-15  術語  標準誤差219

5-3-16  實現  樣本容量更大時的樣本均值220

5-3-17  術語  一致性、一致估計量222

5-3-18  術語  大數定律222

5-3-19 統計推斷的思考模式223

5-4 估計總體方差224

5-4-1  實現  環境準備224

5-4-2  實現  準備一個總體224

5-4-3 用樣本方差、無偏方差估計總體方差225

5-4-4  實現  計算樣本方差和無偏方差225

5-4-5  實現  樣本方差的均值226

5-4-6  實現  無偏方差的均值227

5-4-7 無偏方差用作總體方差的無偏估計量227

5-4-8  實現  樣本容量更大時的無偏方差229

5-5 從正態總體衍生的概率分布231

5-5-1  實現  環境準備231

5-5-2  術語  樣本分布232

5-5-3 正態分布的應用232

5-5-4  術語  分布232

5-5-5  實現  模擬準備233

5-5-6  實現  分布234

5-5-7 樣本均值服從的分布236

5-5-8  實現  樣本均值的標準化237

5-5-9  術語  t值239

5-5-10  術語  t分布239

5-5-11  實現  t分布240

5-5-12  術語  F分布242

5-5-13  實現  F分布243

5-6 區間估計246

5-6-1  實現  環境準備246

5-6-2  術語  點估計、區間估計247

5-6-3  實現  點估計247

5-6-4  術語  置信水平、置信區間248

5-6-5  術語  置信界限248

5-6-6 總體均值的區間估計248

5-6-7  實現  總體均值的區間估計249

5-6-8 決定置信區間大小的因素251

5-6-9 區間估計結果的解讀252

5-6-10 總體方差的區間估計254

5-6-11  實現  總體方差的區間估計255

第6章 假設檢驗257

6-1 單樣本t檢驗258

6-1-1 假設檢驗入門258

6-1-2 關於總體均值的單樣本t檢驗258

6-1-3  術語  零假設與備擇假設259

6-1-4  術語  顯著性差異259

6-1-5 t檢驗的直觀解釋260

6-1-6 均值差異大不代表存在顯著性差異261

6-1-7  術語  檢驗統計量261

6-1-8 回顧t值261

6-1-9 小結1262

6-1-10  術語  第 一類錯誤與第二類錯誤263

6-1-11  術語  顯著性水平263

6-1-12  術語  拒絕域與接受域263

6-1-13  術語  p值264

6-1-14 小結2264

6-1-15 回顧t值與t分布的關系265

6-1-16  術語  單側檢驗與雙側檢驗265

6-1-17 計算拒絕域266

6-1-18 計算p值267

6-1-19 本節涉及的數學式268

6-1-20  實現  環境準備269

6-1-21  實現  計算t值270

6-1-22  實現  計算拒絕域271

6-1-23  實現  計算p值271

6-1-24  實現  通過模擬計算p值272

6-2 均值差檢驗274

6-2-1 雙樣本t檢驗274

6-2-2 配對樣本t檢驗274

6-2-3  實現  環境準備275

6-2-4  實現  配對樣本t檢驗276

6-2-5 獨立樣本t檢驗(異方差)277

6-2-6  實現  獨立樣本t檢驗(異方差)278

6-2-7 獨立樣本t檢驗(同方差)279

6-2-8  術語  p值操縱279

6-3 列聯表檢驗281

6-3-1 使用列聯表的優點281

6-3-2 本節示例282

6-3-3 計算期望頻數283

6-3-4 計算觀測頻數和期望頻數的差異283

6-3-5  實現  環境準備284

6-3-6  實現  計算p值284

6-3-7  實現  列聯表檢驗285

6-4 檢驗結果的解讀287

6-4-1 p值小於或等於0.05時的表述方法287

6-4-2 p值大於0.05時的表述方法287

6-4-3 假設檢驗的常見誤區288

6-4-4 p值小不代表差異大288

6-4-5 p值大於0.05不代表沒有差異289

6-4-6  術語  假設檢驗的非對稱性289

6-4-7 在檢驗之前確定顯著性水平289

6-4-8 是否有必要學習假設檢驗290

6-4-9 是否滿足前提條件290

第7章 統計模型基礎291

7-1 統計模型292

7-1-1  術語  模型292

7-1-2  術語  建模292

7-1-3 模型的作用292

7-1-4 從正態總體中隨機抽樣的模型292

7-1-5  術語  數學模型293

7-1-6  術語  概率模型294

7-1-7 模型的估計294

7-1-8 模型的升級295

7-1-9 基於模型的預測295

7-1-10 簡化復雜的世界295

7-1-11 從某個角度觀察復雜的現象296

7-1-12 統計模型與經典數據分析的對比296

7-1-13 統計模型的應用297

7-2 建立線性模型的方法298

7-2-1 本節示例298

7-2-2  術語  響應變量與解釋變量298

7-2-3  術語  線性模型299

7-2-4  術語  系數與權重300

7-2-5 如何建立線性模型300

7-2-6 線性模型的選擇301

7-2-7  術語  變量選擇301

7-2-8  術語  空模型302

7-2-9 通過假設檢驗選擇變量302

7-2-10 通過信息量準則選擇變量302

7-2-11 模型評估303

7-2-12 在建模之前確定分析目的303

7-3 數據表示與模型名稱304

7-3-1 從廣義線性模型的角度對模型進行分類304

7-3-2  術語  正態線性模型304

7-3-3  術語  回歸分析305

7-3-4  術語  多元回歸分析305

7-3-5  術語  方差分析305

7-3-6  術語  協方差分析305

7-3-7 機器學習中的術語306

7-4 參數估計:最大化似然307

7-4-1 為什麼要學習參數估計307

7-4-2  術語  似然307

7-4-3  術語  似然函數308

7-4-4  術語  對數似然308

7-4-5 對數的性質309

7-4-6  術語  最大似然法311

7-4-7  術語  最大似然估計量311

7-4-8  術語  最大對數似然311

7-4-9 服從正態分布的數據的似然312

7-4-10  術語  多余參數312

7-4-11 正態線性模型的似然312

7-4-12 最大似然法計算示例314

7-4-13 最大似然估計量的性質315

7-5 參數估計:最小化損失316

7-5-1  術語  損失函數316

7-5-2  術語  擬合值與預測值316

7-5-3  術語  殘差317

7-5-4 為什麼不能將殘差之和直接作為損失指標317

7-5-5  術語  殘差平方和318

7-5-6  術語  最小二乘法319

7-5-7 最小二乘法與最大似然法的關系319

7-5-8  術語  誤差函數320

7-5-9 多種損失函數320

7-6 預測精度的評估與變量選擇321

7-6-1  術語  擬合精度與預測精度321

7-6-2  術語  過擬合321

7-6-3 變量選擇的意義321

7-6-4  術語  泛化誤差322

7-6-5  術語  訓練集與測試集322

7-6-6  術語  交叉驗證322

7-6-7  術語  赤池信息量準則323

7-6-8  術語  相對熵323

7-6-9 相對熵的最小化與平均對數似然324

7-6-10 AIC與平均對數似然中的偏差325

7-6-11 使用AIC進行變量選擇325

7-6-12 用變量選擇代替假設檢驗325

7-6-13 應該使用假設檢驗還是AIC326

第8章 正態線性模型327

8-1 含有單個連續型解釋變量的模型(一元回歸)328

8-1-1  實現  環境準備328

8-1-2  實現  讀入數據並繪制其圖形329

8-1-3 建模330

8-1-4 使用最小二乘法估計系數330

8-1-5  實現  估計系數332

8-1-6 估計出的系數的期望值與方差333

8-1-7  實現  使用statsmodels建模334

8-1-8  實現  打印估計結果並檢驗系數335

8-1-9  實現  summary函數的輸出336

8-1-10  實現  使用AIC進行模型選擇337

8-1-11  實現  使用一元回歸進行預測339

8-1-12  實現  置信區間和預測區間340

8-1-13  術語  回歸直線341

8-1-14  實現  使用seaborn繪制回歸直線342

8-1-15  實現  繪制置信區間和預測區間343

8-1-16 回歸直線的方差344

8-2 正態線性模型的評估346

8-2-1  實現  環境準備346

8-2-2  實現  獲取殘差347

8-2-3  術語  決定系數348

8-2-4  實現  決定系數348

8-2-5  術語  修正決定系數351

8-2-6  實現  修正決定系數351

8-2-7  實現  殘差的可視化352

8-2-8  術語  分位圖353

8-2-9  實現  分位圖353

8-2-10  實現  對照summary函數的輸出結果分析殘差355

8-3 方差分析357

8-3-1 本節示例357

8-3-2 什麼時候應該使用方差分析357

8-3-3  術語  多重假設檢驗358

8-3-4 方差分析的直觀理解:F比358

8-3-5 顯著性差異與小提琴圖359

8-3-6 方差分析的直觀理解:分離效應和誤差360

8-3-7  術語  組間差異與組內差異361

8-3-8  實現  環境準備361

8-3-9  實現  生成數據並可視化362

8-3-10  實現  計算各水平均值與總體均值363

8-3-11  實現  方差分析①:計算組間偏差平方和與組內偏差平方和364

8-3-12  實現  方差分析②:計算組間方差與組內方差366

8-3-13  實現  方差分析③:計算F比和p值367

8-3-14 單因素方差分析的計算過程367

8-3-15  術語  平方和分解369

8-3-16 解釋變量為分類變量的正態線性模型370

8-3-17  術語  虛擬變量370

8-3-18  實現  statsmodels中的方差分析371

8-3-19  術語  方差分析表371

8-3-20 模型系數的含義372

8-3-21  實現  使用模型分離效應和誤差372

8-3-22  實現  回歸模型中的方差分析373

8-4 含有多個解釋變量的模型377

8-4-1  實現  環境準備377

8-4-2  實現  錯誤的分析:只比較均值378

8-4-3  術語  協變量380

8-4-4  實現  比較回歸直線的截距380

8-4-5  實現  使用普通的方差分析進行檢驗383

8-4-6  實現  多個解釋變量的平方和計算384

8-4-7  術語  調整平方和386

8-4-8  實現  Type II檢驗386

8-4-9  實現  讀入新數據388

8-4-10  術語  交互作用388

8-4-11  實現  錯誤的分析:模型中未包含交互作用388

8-4-12  實現  建立包含交互作用的模型390

8-4-13  實現  Type III檢驗390

8-4-14  實現  使用AIC進行變量選擇392

8-4-15  實現  交互作用項的含義393

8-4-16  實現  formula參數的功能396

8-4-17  實現  設計矩陣398

第9章 廣義線性模型401

9-1 廣義線性模型概述402

9-1-1 廣義線性模型的組成402

9-1-2 本書使用的概率分布402

9-1-3  術語  泊松分布403

9-1-4  術語  指數型分布族403

9-1-5 指數型分布族常用的概率分布404

9-1-6  術語  線性預測算子404

9-1-7  術語  聯系函數405

9-1-8 聯系函數與概率分布的關系406

9-1-9 廣義線性模型的參數估計406

9-1-10 廣義線性模型的檢驗方法406

9-2 邏輯斯諦回歸408

9-2-1  術語  邏輯斯諦回歸408

9-2-2 本節示例408

9-2-3 二值分類問題408

9-2-4  術語  logit函數409

9-2-5  術語  反函數409

9-2-6  術語  logistic函數409

9-2-7 logistic函數的性質410

9-2-8 邏輯斯諦回歸的推導410

9-2-9 邏輯斯諦回歸的似然函數411

9-2-10  實現  環境準備412

9-2-11  實現  讀入數據並可視化412

9-2-12  實現  邏輯斯諦回歸414

9-2-13  實現  邏輯斯諦回歸的結果414

9-2-14  實現  邏輯斯諦回歸的模型選擇415

9-2-15  實現  使用邏輯斯諦回歸進行預測416

9-2-16  實現  邏輯斯諦回歸的回歸曲線417

9-2-17  術語  優勢和對數優勢418

9-2-18  術語  優勢比和對數優勢比419

9-2-19  實現  邏輯斯諦回歸的系數與優勢比的關系419

9-3 廣義線性模型的評估421

9-3-1  實現  環境準備421

9-3-2  術語  皮爾遜殘差422

9-3-3  實現  皮爾遜殘差423

9-3-4  術語  偏差424

9-3-5  術語  偏差殘差425

9-3-6  實現  偏差殘差425

9-3-7  術語  交叉熵誤差427

9-4 泊松回歸429

9-4-1 泊松分布429

9-4-2 泊松分布與二項分布的關系429

9-4-3  實現  環境準備430

9-4-4  實現  泊松分布431

9-4-5  術語  泊松回歸433

9-4-6 本節示例433

9-4-7 泊松回歸的推導433

9-4-8  實現  讀入數據434

9-4-9  實現  泊松回歸434

9-4-10  實現  泊松回歸的模型選擇435

9-4-11  實現  使用泊松回歸進行預測436

9-4-12  實現  泊松回歸的回歸曲線437

9-4-13  實現  回歸系數的含義437

第 10章 統計學與機器學習439

10-1 機器學習基礎440

10-1-1  術語  機器學習440

10-1-2  術語  監督學習440

10-1-3  術語  無監督學習440

10-1-4  術語  強化學習441

10-1-5  術語  基於規則的機器學習441

10-1-6 統計學與機器學習無法徹底分離441

10-1-7 統計學註重過程,機器學習註重結果441

10-2 正則化、Ridge回歸與Lasso回歸443

10-2-1  術語  正則化443

10-2-2  術語  Ridge回歸443

10-2-3  術語  Lasso回歸444

10-2-4 確定正則化強度445

10-2-5 將解釋變量標準化445

10-2-6 Ridge回歸與Lasso回歸的差異445

10-2-7 變量選擇與正則化的對比446

10-2-8 正則化的意義447

10-3 Python中的Ridge回歸與Lasso回歸448

10-3-1  術語  scikit-learn448

10-3-2  實現  環境準備448

10-3-3  實現  解釋變量的標準化450

10-3-4  實現  定義響應變量451

10-3-5  實現  普通最小二乘法452

10-3-6  實現  使用sklearn實現線性回歸453

10-3-7  實現  Ridge回歸:懲罰指標的影響453

10-3-8  實現  Ridge回歸:確定最佳正則化強度456

10-3-9  實現  Lasso回歸:懲罰指標的影響457

10-3-10  實現  Lasso回歸:確定最佳正則化強度458

10-3-11  實現  使用Lasso回歸進行預測459

10-4 線性模型與神經網絡461

10-4-1  術語  輸入向量、目標向量、權重、偏置461

10-4-2  術語  單層感知機461

10-4-3  術語  激活函數462

10-4-4 從線性模型到神經網絡463

10-4-5  術語  隱藏層463

10-4-6  術語  神經網絡464

10-4-7 神經網絡的結構464

10-4-8 神經網絡中的L2正則化465

10-4-9  實現  環境準備465

10-4-10  實現  一元回歸分析466

10-4-11  實現  使用神經網絡實現回歸468

10-4-12  實現  邏輯斯諦回歸471

10-4-13  實現  使用神經網絡實現分類474

10-4-14  實現  生成用於復雜分類問題的數據476

10-4-15  實現  將數據分割為訓練集與測試集477

10-4-16  實現  對復雜數據進行邏輯斯諦回歸分析478

10-4-17  實現  使用神經網絡對復雜數據進行分類478

10-4-18 線性模型與神經網絡各自的優點479

參考文獻(圖靈社區下載)