大數據分析及應用
曹福凱、高晶、鄭軍
- 出版商: 清華大學
- 出版日期: 2025-12-01
- 售價: $354
- 語言: 簡體中文
- 頁數: 251
- ISBN: 7302647542
- ISBN-13: 9787302647546
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
"《大數據分析及應用》重點介紹了大數據的基礎理論、算法理論和關鍵技術幾方面的內容,主要包括:大數據基礎、數據采集方法、數據預處理、主成分分析、預測分析、集成學習、預測模型評估、描述性分析、生存分析、社交網絡分析、數據處理技術、數據分析技術、數據可視化技術、Hadoop生態系統和互聯網電商數據的分析應用等。 《大數據分析及應用》適合計算機、人工智能、大數據等相關專業的本科生、研究生使用,同時也適合對大數據分析與應用感興趣的相關人員,以及大數據分析與應用行業的工程技術人員閱讀。 "
作者簡介
曹福凱,博士,教授、高級工程師,碩士生導師,研究方向大數據分析及應用、人工智能、智慧教育、智能醫學及應用。現任華北理工大學冀唐學院信息中心主任及計算機教研室主任,華北理工大學信息創新實驗室主任。
目錄大綱
目 錄
第1章 大數據基礎 1
1.1 大數據概述 1
1.1.1 什麼是大數據 1
1.1.2 大數據生態圈簡介 2
1.1.3 大數據應用場景 2
1.1.4 數據與數據科學 3
1.2 大數據的特點 4
1.2.1 數據量大 5
1.2.2 數據類型繁多 6
1.2.3 處理速度快 7
1.2.4 價值密度低 7
1.3 大數據計算模式 8
1.3.1 批處理計算 8
1.3.2 流計算 8
1.3.3 圖計算 9
1.3.4 查詢分析計算 9
1.4 大數據產業結構 9
1.5 大數據常見應用 10
1.6 大數據、雲計算與物聯網 11
1.6.1 雲計算 11
1.6.2 物聯網 14
1.6.3 大數據、雲計算及物聯網的
關系 18
1.7 本章小結 19
習題 19
第2章 數據采集方法 20
2.1 大數據采集概述 20
2.1.1 大數據分類 20
2.1.2 數據庫采集 22
2.2 系統日誌采集 22
2.2.1 Flume基本概念 22
2.2.2 Flume使用方法 23
2.2.3 Flume應用案例 24
2.2.4 日誌采集的目的 25
2.2.5 日誌采集過程 26
2.3 網絡數據采集方法 27
2.3.1 網絡爬蟲工作原理 28
2.3.2 網絡爬蟲工作流程 29
2.3.3 網頁搜索策略 29
2.3.4 網頁分析算法 33
2.3.5 網絡爬蟲框架 34
2.4 本章小結 35
習題 36
第3章 數據預處理 37
3.1 數據預處理研究現狀 37
3.1.1 數據清洗的研究現狀 37
3.1.2 數據規約的研究現狀 38
3.2 數據集成和數據轉換 40
3.2.1 數據集成 40
3.2.2 數據轉換 40
3.3 數據清洗技術 42
3.3.1 數據缺失值的處理方法 42
3.3.2 噪聲數據的處理方法 44
3.3.3 冗余數據的處理方法 46
3.3.4 數據格式與內容的
處理方法 46
3.3.5 數據消減 47
3.3.6 重復數據處理 48
3.4 數 據 規 約 48
3.4.1 維度規約 49
3.4.2 數據規約 50
3.5 數據清洗工具 50
3.6 本章小結 51
習題 51
第4章 主成分分析 52
4.1 主成分分析概述 52
4.1.1 基本思想 52
4.1.2 主成分分析法的基本原理 54
4.1.3 主成分分析的主要作用 55
4.1.4 主成分分析法的定義和導出 55
4.1.5 主要性質 56
4.1.6 主成分分析法優缺點 58
4.2 樣本主成分分析 58
4.2.1 樣本主成分的定義和性質 58
4.2.2 相關矩陣的特征值分解算法 60
4.2.3 應用案例:啤酒風味指標及
差異性 61
4.3 本章小結 65
習題 65
第5章 預測分析 66
5.1 概述 66
5.2 線性回歸 69
5.2.1 什麼是線性回歸 70
5.2.2 建立模型基本形式 71
5.2.3 衡量預測值與真實值的距離 71
5.2.4 建立目標函數 72
5.2.5 評價指標 74
5.2.6 模型復雜度 76
5.3 Logistic回歸 77
5.3.1 二分類邏輯回歸模型 77
5.3.2 二分類Logistic回歸訓練 79
5.3.3 Logistic回歸和softmax的
應用 81
5.4 決策樹 81
5.4.1 決策樹模型 82
5.4.2 決策樹的訓練 83
5.5 神經網絡 87
5.5.1 生物神經元和人工神經元 87
5.5.2 感知機 88
5.5.3 BP神經網絡 89
5.5.4 Sklearn中的神經網絡 91
5.6 本章小結 92
習題 92
第6章 集成學習 93
6.1 集成學習概述 93
6.2 裝袋法(Bagging) 94
6.2.1 Bagging集成策略 94
6.2.2 隨機森林模型結構 95
6.2.3 隨機森林訓練算法 96
6.3 Boosting集成學習方法 97
6.4 集成學習的評估 98
6.5 本章小結 98
習題 99
第7章 預測模型評估 100
7.1 模型評估 100
7.2 數據集拆分 102
7.2.1 數據集的劃分 102
7.2.2 數據集的劃分方法 103
7.2.3 模型的擬合問題 104
7.3 分類模型的性能測算 104
7.4 模型性能指標 107
7.5 預測分析模型的其他性能測算
指標 108
7.6 本章小結 113
習題 113
第8章 描述性分析 114
8.1 概述 114
8.2 關聯規則 114
8.2.1 關聯規則概述 114
8.2.2 關聯分析過程 116
8.2.3 Apriori算法 116
8.3 聚類 118
8.4 本章小結 118
習題 119
第9章 生存分析 120
9.1 概述 120
9.2 基本概念 120
9.3 生存分析研究的主要內容 122
9.4 Kaplan-Meier分析 123
9.5 比例風險回歸 125
9.5.1 Cox比例風險回歸分析的
基本原理 125
9.5.2 Cox回歸模型的基本形式 126
9.5.3 Cox回歸模型的建模假設 126
9.6 生存分析模型的擴展 127
9.7 本章小結 128
習題 128
第10章 社交網絡分析 129
10.1 概述 129
10.2 社交網絡定義 129
10.3 社交網絡的本質 130
10.4 社交網絡指標 130
10.5 社交網絡學習 131
10.6 相關鄰居分類器 133
10.6.1 KNN概述 133
10.6.2 KNN算法的決策過程 135
10.7 本章小結 139
習題 139
第11章 數據處理技術 140
11.1 合並數據集 140
11.1.1 索引合並 140
11.1.2 軸向連接 143
11.2 數據轉換 147
11.2.1 移除重復數據 147
11.2.2 利用函數進行數據轉換 148
11.2.3 替換值 149
11.2.4 重命名軸索引 150
11.2.5 離散化數據 150
11.2.6 檢測異常值 152
11.2.7 排列和隨機采樣 153
11.2.8 啞變量 154
11.3 字符串操作 155
11.3.1 內置字符串方法 155
11.3.2 正則表達式 157
11.4 本章小結 160
習題 161
第12章 數據分析技術 162
12.1 NumPy工具包 162
12.1.1 創建數組 163
12.1.2 選擇NumPy數組元素 163
12.1.3 NumPy的數值類型 164
12.1.4 切片 164
12.1.5 形狀操作 165
12.1.6 復制和視圖 168
12.1.7 NumPy實用技巧 169
12.2 Pandas工具包 170
12.2.1 Series 170
12.2.2 DataFrame 172
12.3 Scikit - Learn工具包 174
12.3.1 邏輯回歸 174
12.3.2 樸素貝葉斯 175
12.3.3 決策樹 175
12.3.4 支持向量機 177
12.3.5 優化算法參數 178
12.4 本章小結 186
習題 187
第13章 數據可視化技術 188
13.1 數據可視化簡介 188
13.1.1 數據可視化的重要性 188
13.1.2 可視化的發展歷程 188
13.1.3 數據可視化的過程 189
13.2 Matplotlib繪圖 189
13.2.1 Matplotlib API入門 190
13.2.2 Figure和Subplot的
畫圖方法 194
13.2.3 調整子圖(Subplot)周圍的
間距 199
13.2.4 顏色、標記和線型的設置 199
13.2.5 刻度、標簽和圖例 200
13.3 Mayavi2繪圖 202
13.3.1 使用mlab快速繪圖 203
13.3.2 Mayavi嵌入界面中 204
13.4 其他圖形化工具 207
13.5 本章小結 208
習題 208
第14章 Hadoop生態系統 209
14.1 Hadoop系統架構 209
14.2 HDFS(分布式文件系統) 210
14.2.1 HDFS體系結構 211
14.2.2 HDFS存儲結構 213
14.2.3 數據容錯與恢復 214
14.2.4 Hadoop安裝 215
14.3 分布式存儲架構 220
14.3.1 HBase系統架構 220
14.3.2 數據模型與存儲模式 222
14.3.3 HBase數據讀寫 226
14.3.4 數據倉庫工具Hive 228
14.3.5 HBase安裝與配置 229
14.4 資源管理與作業調度 232
14.4.1 分布式協同管理組件
ZooKeeper 232
14.4.2 作業調度與工作流引擎
Oozie 234
14.4.3 集群資源管理框架YARN 235
14.5 本章小結 238
習題 238
第15章 互聯網電商數據應用分析 239
15.1 電商流程管理分析 239
15.1.1 行業背景與業務問題 239
15.1.2 分析方法與過程 240
15.2 案例:電商用戶行為與銷售分析 243
15.2.1 案例準備 243
15.2.2 數據采集與存儲 246
15.2.3 數據倉庫與離線處理分析 248
15.2.4 實時計算與分析 249
15.2.5 任務調度與數據可視化 250
15.2.6 案例總結 251







