數據科學理論與實踐
朝樂門
- 出版商: 清華大學
- 出版日期: 2022-12-01
- 定價: $474
- 售價: 8.5 折 $403
- 語言: 簡體中文
- ISBN: 7302616353
- ISBN-13: 9787302616351
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
商品描述
目錄大綱
目錄
第1章基礎理論
1.1術語定義
1.2研究目的
1.3研究視角
1.4發展簡史
1.5理論體系
1.6基本原則
1.7相關理論
1.8人才類型
習題
參考文獻
第2章理論基礎
2.1數據科學的學科地位
2.2統計學
2.3機器學習
2.4數據可視化
習題
參考文獻
第3章流程與方法
3.1基本流程
3.2數據加工
3.3數據審計
3.4數據分析
3.5數據可視化
3.6數據故事化
3.7數據科學項目管理
習題
參考文獻
第4章技術與工具
4.1數據科學的技術體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7數據湖與湖倉一體化
4.8發展趨勢
習題
參考文獻
第5章數據產品及開發
5.1定義
5.2主要特徵
5.3關鍵活動
5.4數據柔術
5.5數據能力
5.6數據戰略
5.7數據治理
5.8數據安全、隱私、道德與倫理
習題
參考文獻
第6章典型案例及實踐
6.1統計分析
6.2機器學習
6.3數據可視化
6.4Spark編程
6.52012年美國總統大選
習題
參考文獻
附錄A本書案例的R語言版代碼
附錄B數據科學的重要資源
附錄C大數據與數據科學領域的名人名言
附錄D術語索引
圖目錄
圖11傳統統計學中的總體與樣本的關系3
圖12DIKW 金字塔模型3
圖13數據與數值的區別5
圖14數字信號與模擬信號5
圖152010—2025年全球數據規模估計和預測數據(單位: ZB)6
圖16大數據的特徵7
圖17大數據的本質8
圖18人工智能、機器學習和深度學習的區別與聯系10
圖19數據洞見11
圖110業務數據化與數據業務化11
圖111常用驅動方式12
圖112數據的層次性12
圖113大數據生態系統示意圖13
圖114數據科學的新研究視角14
圖115Gartner技術成熟度曲線16
圖116數據科學的萌芽期(1974—2009年)16
圖117數據科學的快速發展期(2010—2013年)17
圖118數據科學的逐漸成熟期(2014年至今)18
圖119數據科學的理論體系20
圖120數據科學的主要內容20
圖121數據科學的“三世界原則”22
圖122科學研究範式23
圖123數據科學的“三個要素”及“3C精神”24
圖124計算密集型應用與數據密集型應用的區別25
圖125算法的性能與可解釋的矛盾25
圖126數據範式與知識範式的區別26
圖127數據管理範式的變化27
圖128數據的“資產”屬性27
圖129常用驅動方式29
圖130CAPTCHA方法的應用30
圖131ReCAPTCHA項目31
圖132數據與算法之間的關系31
圖133BellKors Pragmatic Chaos團隊獲得Netflix大獎32
圖134Netflix大獎公測結果33
圖135數據科學與商務智能的區別與聯系34
圖136數據科學與數據工程在企業應用中的區別與聯系35
圖137數據科學的DevOps35
圖138DevOps的流程及常用工具36
圖139DevOps生命期流程36
圖140數據科學人才類型及其收入37
圖141RStudio中編輯Markdown的窗口39
圖142數據科學家團隊42
圖143大數據人才應具備的不同知識結構44
圖144學習數據科學的四則運算原則48
圖21數據科學的理論基礎55
圖22Jeffrey D.Ullman對Conway的數據科學維恩圖的評價57
圖23Jeffrey D.Ullman提出的數據科學維恩圖57
圖24統計方法的分類(行為目的與思路方式視角)58
圖25統計學中的數據推斷59
圖26數據統計方法的類型(方法論視角)59
圖27數據統計基本方法60
圖28元分析與基本分析60
圖29GFT預測與美國疾病控制中心數據的對比62
圖210GFT估計與實際數據的誤差(2013年1月)63
圖211大數據時代的思維模式的轉變64
圖212西洋雙陸棋65
圖213機器人駕駛65
圖214機器學習的示意圖66
圖215機器學習的三要素68
圖216機器學習的類型69
圖217KNN算法的基本步驟70
圖218決策樹示例——識別鳥類73
圖219MP神經元的結構74
圖220前向神經網絡75
圖221歸納學習與分析學習77
圖222增強學習77
圖223深度學習與傳統機器學習的區別78
圖224機器學習的類型79
圖225IBM Watson80
圖226Pepper機器人81
圖227可解釋性人工智能系統82
圖228機器學習中的數據83
圖229Anscombe四組數據的可視化88
圖230John Snow所繪的地圖88
圖231在Tableau中加利福尼亞州政府收入來源數據的可視化89
圖31數據科學的基本流程93
圖32量化自我94
圖33乾凈數據與規整數據的區別95
圖34規整數據示意圖96
圖35殘差99
圖36數據分析的類型100
圖37Analytics 1.0~3.0101
圖38數據加工方法102
圖39數據審計與數據清洗104
圖310缺失數據處理的步驟104
圖311冗餘數據處理的方法104
圖312數據分箱處理的步驟與類型106
圖313均值平滑與邊界值平滑106
圖314內容集成109
圖315結構集成109
圖316數據脫敏111
圖317數據連續性的定義及重要性115
圖318可視化審計示例116
圖319Gartner分析學價值扶梯模型117
圖320數據分析的類型及方法對應關系118
圖321冰激凌的銷售量與謀殺案的發生數量119
圖322數據分析的類型121
圖323拿破侖進軍俄國慘敗而歸的歷史事件的可視化123
圖324可視分析學的相關學科124
圖325可視分析學模型124
圖326數據可視化的方法體系125
圖327視覺圖形元素與視覺通道126
圖328雷達圖示例126
圖329齊美爾連帶126
圖330視覺隱喻的示例——全球變暖127
圖331地鐵路線圖的創始人Henry Beck128
圖332Henry Beck的倫敦地鐵線路圖128
圖333視覺突出的示例129
圖334完圖法則的示例129
圖335黃金比例示意圖131
圖336黃金比例示意圖1131
圖337黃金比例示意圖2132
圖338視覺通道的精確度對比132
圖339視覺通道的可辨認性133
圖340上下文導致視覺假象1133
圖341上下文導致視覺假象2133
圖342對亮度和顏色的相對判斷容易造成視覺假象的示例134
圖343文學故事與數據故事的對比138
圖344數據的可視化和數據的故事化的區別和聯系138
圖345數據故事的金字塔模型141
圖346數據故事化的作用143
圖347數據故事認知的PCA模型143
圖348KISS原則144
圖349項目管理的主要內容145
圖412017大數據產業全景圖152
圖42大數據參考架構154
圖43MapReduce執行過程156
圖44MapReduce對中間數據的處理160
圖45以MapReduce為核心和以YARN為核心的軟件棧對比162
圖46下一代MapReduce框架163
圖47Apache的Hadoop項目163
圖48Hadoop生態系統164
圖49Hadoop MapReduce數據處理過程165
圖410Apache Hive官方網站167
圖411Apache Pig官方網站168
圖412Apache Mahout官方網站169
圖413Apache HBase官方網站169
圖414HBase與Hadoop項目170
圖415HBase的邏輯模型171
圖416Apache ZooKeeper官方網站172
圖417Apache Flume官方網站173
圖418Apache Sqoop官方網站174
圖419Spark技術架構175
圖420Spark的基本流程176
圖421Spark的執行步驟181
圖422Lambda 架構的主要組成部分183
圖423傳統關系數據庫的優點與缺點184
圖424關系數據庫技術與NoSQL技術之間的關系186
圖425NoSQL數據分佈的兩個基本途徑187
圖426分片處理188
圖427主從復制189
圖428對等復制190
圖429數據不一致性191
圖430CAP理論192
圖431CAP理論的應用策略192
圖432Memcached官方網站195
圖433一致性散列的分配方式196
圖434服務器增加時的變化197
圖435Databricks的Delta Lake數據管理架構201
圖436雲計算的演變過程202
圖437數據管理的新變化204
圖4382021年數據科學及機器學習平臺的魔術象限207
圖439基於Databricks的統一分析平臺的架構209
圖51數據產品開發中的數據與數據柔術216
圖52知識範式與數據範式218
圖53數據產品的多樣性219
圖54數據產品的層次性220
圖55Google全球商機洞察221
圖56數據產品鏈222
圖57傳統產品開發與數據產品開發的區別223
圖58D.J.Patil223
圖59UI(User Interface)設計方案與設計思維225
圖510Google搜索的用戶體驗226
圖511人與電腦圖像內容識別能力的不同226
圖512Amazon Mechanical Turk平臺228
圖513一個HIT的生命周期228
圖514基於人與電腦的數據處理成本曲線229
圖515亞馬遜的數據產品——其他商家(Other Sellers)230
圖516LinkedIn的數據產品——你可能認識的人們231
圖517LinkedIn的數據產品——你的觀眾是誰231
圖518逆向交互定律232
圖519LinkedIn的數據產品——崗位推薦234
圖520LinkedIn的數據產品——幫助你的朋友找到工作235
圖521Facebook的良好用戶體驗235
圖522DMM模型基本思路238
圖523CMM基本思想239
圖524CMM成熟度等級240
圖525DMM關鍵過程域241
圖526DMM層級劃分及描述243
圖527IDEAL模型245
圖528組織機構數據管理能力成熟度評估結果的可視化246
圖529DoD數據戰略框架247
圖530數據戰略與數據管理目標的區別248
圖531數據戰略的目標248
圖532數據戰略的側重點249
圖533數據戰略的範疇249
圖534數據管理與數據治理的區別250
圖535IBM提出的企業數據管理的範疇251
圖536數據治理的PDCA模型252
圖537DGI數據治理框架253
圖538P2DR模型255
圖539從歐洲大陸的空戰中返回的轟炸機256
圖61KMeans算法的基本步驟287
圖62奧巴馬2012年總統競選芝加哥總部307
圖63George Clooney308
圖64Sarah Jessica Parker308
圖65奧巴馬及“快速捐贈計劃”310
圖66奧巴馬通過Reddit與選民互動311
圖672012年美國總統競選財務數據官方網站312
圖A1女性體重與身高的線性回歸分析334
圖A2工資數據的可視化347
圖A3起飛延誤時間359
圖A4到達延誤時間359
圖A5捐助人職業、黨派及捐助額度分析372
圖A6分箱處理後的捐款數據可視化373
圖A7捐款日期與金額的可視化374
圖A8捐款月份與金額變化分析375
圖A9投票結果的可視化377
表目錄
表11結構化數據、非結構化數據與半結構化數據的區別與聯系5
表12數據量及大小6
表13某位數據科學家的畫像40
表21參數估計與假設檢驗的主要區別59
表22統計學與機器學習的術語對照64
表23機器學習的相關學科69
表24已知6部電影的類型及其中出現的接吻次數和打鬥次數71
表25已知電影與未知電影的距離71
表26分析學習和歸納學習的比較77
表27深度學習與傳統機器學習的應用場景比較79
表28Anscombe的四組數據87
表31測試數據A96
表32測試數據B96
表33測試數據C96
表34Pew論壇部分人員信仰與收入數據統計(規整化處理之前)97
表35Pew論壇部分人員信仰與收入數據統計(規整化處理之後)97
表36探索性統計中常用的集中趨勢統計量99
表37探索性統計中常用的離散程度統計量99
表38探索性統計中常用的數據分佈統計量99
表39常見的數據變換策略107
表310過濾式方法與包裹式方法的區別107
表311十進制第一數字的使用概率114
表312數據分析中常見錯誤121
表313數據類型及所支持的操作類型130
表314數據類型與視覺通道的對應關系130
表315數據故事與文學故事的區別139
表316數據故事化的相關概念及其區別142
表317數據科學項目中的主要角色及其任務145
表41Transformation常用函數178
表42Action常用函數178
表43RDD的存儲級別179
表44Spark數據類型和R數據類型之間的映射關系182
表45較有代表性的雲數據庫產品186
表46NoSQL數據庫中常用的數據模型187
表47R與Python對比198
表48數據湖與數據倉庫的對比200
表49雲計算的基本類型203
表410數據科學平臺的分類206
表411數據科學及機器學習平臺的魔術象限208
表51數據轉換與數據加工的區別217
表52Google公司的十大產品和服務217
表53數據管理原則237
表54數據管理成熟度模型的過程域分類242
表55信息系統安全等級及保護基本要求254
表56腎結石治療數據分析——兩種治療方案的分別統計258
表57兩種治療方案的匯總統計258
表61數據集women268
表62Protein數據集286
表63工資信息294
表64各字段的名稱及含義312
表A1Spark版本差異性351
表A2Spark與R的數據類型對比352
表A3SparkR與sparklyr比較360