R統計與數據可視化:社會科學數據分析實踐(全彩) Statistics and Data Visualization Using R: The Art and Practice of Data Analysis

李嘉平

買這商品的人也買了...

商品描述

書的目的是講解數據分析的方法、邏輯、藝術與實踐。全書共17章,第1章介紹了R、RStudio和R Markdown的安裝和使用,第2章介紹了數據分析的動機和四個構成要素:①描述數據並形成假設②模型的構建與估計③診斷④提出下一個問題,後續章節將按照數據分析構成要素的順序來組織;對數據瞭解得越多,我們就越能夠提出更好的問題,形成更好的假設,描述數據相關的概念和所需的工具,將在第3~9章中詳述;模型的構建與估計是一個應該在理論和證據間來回往復迭代的過程,關於構建模型的練習將在第10~14章中進行;診斷既能幫助我們發現問題,又能幫助我們發掘有意義的關聯,形成額外的解釋或假設,關於診斷將會在第15章和第16章中詳述;第17章將討論許多涉及二元因變量的問題,附錄將提供創建其他新假設的技巧和竅門。

目錄大綱

第1 章 ? 入門指南 001
概述 001
R、RStudio 和R Markdown 002
對象與函數 004
RStudio 入門 006
RStudio 的R Markdown 導覽 012
R Markdown 文件與R 腳本 017
小練習 019
第2 章 ? 數據分析導論 027
概述 027
數據分析的動機 028
大數據越來越大 028
數據分析是一項有市場需求的技能 029
數據分析是一種公益 030
數據分析的構成要素 031
描述數據並形成假設 033
假設一:民族語言碎片化 034
假設二:女性選舉權 040
假設三:人力資本 046
假設四:政治穩定 048
模型的構建與估計 052
診斷 054
結果的穩定性 054
殘差圖 056
提出下一個問題 059
目錄
X R統計與數據可視化:社會科學數據分析實踐
第3 章 ? 描述數據 065
概述 065
數據集和變量 067
不同類型的變量 069
連續變量 070
分類變量 070
有序分類變量 071
描述數據可以節省時間和精力 074
數據的形狀 074
數據的極差 078
辨識困惑、問題、假設和線索 080
困惑和問題:重要的區別 080
描述數據以改進問題 082
描述數據披露了更多線索 085
度量 087
有效性 087
可靠性 089
第4 章 ? 集中趨勢和離散程度 095
概述 095
集中趨勢的度量:眾數、平均數和中位數 096
眾數 097
平均數 098
中位數 102
平均數與中位數 105
離散程度的度量:極差、四分位距和標準差 108
極差 109
四分位距 111
標準差 112
四__________分位距與標準差 118
關於方差的說明 119
第5 章 ? 數據的單變量和雙變量描述 125
概述 125
好的、差的和離群值 126
目錄 _目錄 XI
單變量數據的5 種視圖 127
頻率表 128
條形圖 129
箱線圖(或盒須圖) 130
直方圖 133
莖葉圖 137
變量間是否相關 140
散點圖 141
箱線圖(雙變量) 147
馬賽克圖 147
交叉表 150
氣泡圖 150
第6 章 ? 數據變換 159
概述 159
數據變換的理論原因 160
變換數據確保符合理論 160
數據和問題都要變換以相互匹配 161
數據變換的實際原因 162
數據變換——從連續變量到分類變量 166
數據變換——改變類別 171
Box-Cox 變換 177
第7 章 ? 數據展示的一些原則 189
概述 189
一些風格要素 190
消除雜亂 191
聚焦 193
整合圖文 195
一圖應該勝千言 198
瞭解你的受眾 204
瞭解你的目的:解釋性、探索性或信息性 206
故事的基本要素 211
文檔(樹立講述者的可信度) 212
建立直覺(設定背景) 214
XII R統計與數據可視化:社會科學數據分析實踐
展示因果關系(旅程) 214
從因果到行動(決議) 216
第8 章 ? 概率論精要 221
概述 221
總體和樣本 222
樣本偏差與隨機樣本 223
大數定律 225
大數定律的可視化 226
中心極限定理 230
平均數的抽樣分佈隨著n 的增加而接近正態分佈 231
和的抽樣分佈是正態的 233
從正態分佈中抽取時的觀測數量 234
中心極限定理的一個有用性質 235
從不同的分佈中抽樣 236
標準正態分佈 242
標準正態分佈與臨界z 分數 245
第9 章 ? 置信區間與假設檢驗 253
概述 253
大樣本的置信區間 254
求總體比例 254
求總體平均數 259
小樣本與t- 分佈 263
自由度 266
小樣本的樣本標準差 267
用小樣本構建置信區間 272
例子:女性薪酬與男性薪酬 273
比較兩個樣本的平均數 275
例子:兩個群體和兩種收入 276
例子:種族和對警察的看法 278
例子:收入和對特朗普的支持 278
置信水平 280
關於統計推斷和因果關系的簡要說明 283
目錄 _目錄 XIII
第10 章 ? 進行比較 289
概述 289
為什麽要進行比較 290
需要比較的問題 291
比較兩個分類變量 293
例子:對警察的看法 293
例子:哪些人去教堂 296
比較連續變量和分類變量 298
例子:奧巴馬情感量表 298
比較兩個連續變量 301
例子:性別與教育 301
例子:性別與政策制定 302
探索性數據分析:調查美國的墮胎率 305
重述要點 307
好的分析引出新的問題 312
第11 章 ? 受控比較 317
概述 317
什麽是受控比較 318
比較兩個分類變量,同時控制第三個變量 319
例子:對警察的看法 319
例子:對移民的看法 325
比較兩個連續變量,同時控制第三個變量 332
例子:嬰兒死亡率 333
例子:凶殺率 336
論點與受控比較 339
第12 章 ? 線性回歸 345
概述 345
線性回歸的優點 346
線性回歸中的斜率和截距 347
對斜率和截距的解讀 348
例子:選民投票率和教育 348
擬合優度(R2 統計量) 353
XIV R統計與數據可視化:社會科學數據分析實踐
統計顯著性 357
計算t- 比率 358
二元回歸的例子 360
一個州的宗教信仰水平是否會影響墮胎率 361
宗教信仰是否會影響槍支法案 363
暴力會導致政治不穩定嗎 364
收入(人均 GDP)與投票率有關嗎 366
第13 章 ? 多元回歸 373
概述 373
什麽是多元回歸 374
為什麽要使用多元回歸 375
回歸模型和論點 376
回歸模型、理論和證據 377
解讀多元回歸中的估計值 381
實質顯著性 381
統計顯著性 382
擬合優度:R2 383
例子:凶殺率與教育 384
理論 384
描述數據 385
估計 389
經驗蘊涵 391
討論 394
第14 章 ? 虛擬變量和交互作用 399
概述 399
什麽是虛擬變量 400
加性模型與交互作用模型 401
二元虛擬變量回歸 402
多元回歸與虛擬變量 403
多元回歸中的交互作用 403
例子:伯尼.桑德斯,教育和收入 405
例子:外援,人均GDP 和民主 410
目錄 _目錄 XV
第15 章 ? 診斷1 :普通最小二乘法是否適用 419
概述 417
回歸分析中的診斷 417
統計量與估計量的性質 420
高斯- 馬爾可夫假設 425
殘差圖 431
第16 章 ? 診斷2 :殘差、杠桿值與影響力的度量 445
概述 445
離群值 446
杠桿值 449
影響力的度量 455
庫克距離 455
dfbeta 456
增加變量圖 461
第17 章 ? 邏輯回歸 469
概述 469
需要邏輯回歸解決的議題與難題 470
邏輯回歸違反了高斯- 馬爾可夫假設 471
使用對數發生比 474
使用預測概率 477
二元邏輯回歸 477
多元邏輯回歸 479
例子:2012 年奧巴馬贏得的選舉人團 480
邏輯回歸模型擬合 483
例子:奧巴馬,收入和教育 483
接收者操作特徵曲線和曲線下麵積 484
附錄A ? 形成經驗蘊涵