大數據技術與應用
張貴煒,尹慧君
- 出版商: 電子工業
- 出版日期: 2026-02-01
- 售價: $294
- 語言: 簡體中文
- 頁數: 200
- ISBN: 7121521245
- ISBN-13: 9787121521249
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
商品描述
本書作為校企合作教材,以培養應用型大數據技術人才為目標,系統介紹了大數據技術的基礎理論、核心工具和行業應用方法。本書融入了編者豐富的理論教學經驗和企業實踐經驗,共分 10 章,力求構築起循序漸進的學習路徑,從大數據基礎概念到環境配置,再到數據采集、存儲,繼而深入到數據分析與可視化,按照技術學習的邏輯順序進行組織,便於讀者逐步深入學習。全書在編寫過程中深度融合校企雙方優勢資源,以“理論結合實踐”為主線,通過豐富的案例和實驗,幫助讀者構建完整的大數據知識體系,提升實際工作能力。本書可作為高等院校大數據管理與應用、數據科學與大數據技術、計算機科學與技術、人工智能等相關專業的教材,也可作為大數據從業者的參考用書。
目錄大綱
第1章 緒論 1
1.1 大數據的發展 2
1.1.1 大數據的產生背景 2
1.1.2 大數據的發展歷程 4
1.1.3 大數據的發展趨勢 6
1.2 大數據的概念、特征及主要來源 8
1.2.1 大數據的概念 8
1.2.2 大數據的特征 9
1.2.3 大數據的主要來源 10
1.3 大數據的價值 11
1.3.1 商業價值 12
1.3.2 社會生活價值 13
1.4 大數據的分析過程 13
1.4.1 大數據采集 13
1.4.2 大數據存儲 14
1.4.3 大數據分析 15
1.4.4 大數據可視化 15
習題 16
第2章 環境配置 17
2.1 Ubuntu操作系統的安裝 17
2.1.1 系統安裝 18
2.1.2 輔助軟件的安裝 29
2.2 Linux常用命令介紹 31
2.3 大數據實驗平臺概述 34
習題 38
第3章 大數據生態 39
3.1 認識Hadoop 40
3.1.1 HDFS 40
3.1.2 MapReduce 41
3.1.3 YARN 41
3.2 部署Hadoop 41
3.2.1 單節點偽分布模式安裝 41
3.2.2 多節點分布模式安裝 47
3.3 HDFS 53
3.3.1 HDFS體系結構 53
3.3.2 HDFS存儲原理 55
3.3.3 HDFS實戰 57
3.4 MapReduce 59
3.4.1 MapReduce邏輯結構 59
3.4.2 MapReduce實戰 60
3.5 ZooKeeper 63
3.5.1 ZooKeeper集群 64
3.5.2 部署ZooKeeper 65
習題 66
第4章 大數據采集與預處理 67
4.1 數據 68
4.1.1 數據是什麼 68
4.1.2 數據分類 69
4.1.3 度量和維度 70
4.2 數據采集 70
4.2.1 數據采集概述 71
4.2.2 數據采集工具 72
4.3 日誌采集組件Flume 74
4.3.1 Flume結構 74
4.3.2 Flume部署 75
4.3.3 Flume實戰 76
4.4 數據清洗 78
4.4.1 缺失值處理 78
4.4.2 異常值處理 79
4.4.3 數據清洗實戰 79
4.5 數據變換 82
4.5.1 數據規範化 82
4.5.2 數據透視表 82
4.5.3 列聯表 83
4.5.4 聚合表 83
4.5.5 特征編碼 84
習題 84
實驗 84
第5章 大數據存儲 85
5.1 大數據存儲概述 86
5.2 NoSQL數據庫 86
5.2.1 NoSQL概述 86
5.2.2 BASE原則 88
5.2.3 NoSQL數據存儲模式 88
5.3 列式數據庫HBase 92
5.3.1 HBase系統架構 92
5.3.2 HBase數據模型 93
5.3.3 HBase應用場景 94
習題 95
第6章 內存計算引擎Spark 97
6.1 Spark 概述 98
6.1.1 Spark的起源和發展 98
6.1.2 Spark的特點和優勢 99
6.1.3 Spark的應用場景和案例 100
6.2 Spark部署 101
6.2.1 Spark的安裝和配置 101
6.2.2 Spark的集群部署 102
6.2.3 Spark的運行和管理 103
6.3 Spark結構 104
6.3.1 Spark的數據結構:RDD 104
6.3.2 Spark的計算模型:DAG 105
6.3.3 Spark的集群架構:主從結構 106
6.3.4 Spark的執行原理:任務分解和調度 107
6.4 Spark實戰 108
6.4.1 Spark在數據處理中的應用 108
6.4.2 Spark在數據挖掘中的應用 109
6.4.3 Spark在信息系統中的應用 111
習題 112
第7章 大數據分析 113
7.1 大數據分析概述 114
7.1.1 大數據分析的概念 115
7.1.2 大數據分析的流程 116
7.1.3 數據分析師的基本技能和素養 116
7.2 業務理解 117
7.2.1 業務理解概述 117
7.2.2 數據業務化 118
7.3 數據認知分析 120
7.3.1 描述性分析 120
7.3.2 對比分析 121
7.3.3 細分分析 121
7.3.4 交叉分析 122
7.3.5 相關分析 122
7.4 分析指標設計 124
7.4.1 設計指標技巧 124
7.4.2 如何設計指標 126
7.5 數據建模 128
7.5.1 大數據建模技術 128
7.5.2 大數據分析技術 129
7.5.3 大數據模型的應用領域及大數據建模的準則 129
7.6 數據倉庫Hive 131
7.6.1 Hive概述 131
7.6.2 Hive部署 137
7.6.3 Hive語法基礎與數據定義、調優基礎命令 141
7.6.4 Hive實戰:學生考試成績分析 153
習題 154
第8章 數據可視化 156
8.1 數據可視化概述 156
8.2 數據可視化方法 157
8.2.1 時空數據可視化 157
8.2.2 文本數據可視化 158
8.2.3 關系數據可視化 159
8.2.4 比例數據可視化 159
8.3 數據可視化工具FineBI 161
8.3.1 產品定位 161
8.3.2 與傳統BI軟件相比存在的優勢 161
8.3.3 FineBI數據可視化的制作 162
習題 167
第9章 大數據應用 168
9.1 雙11數據分析與預測 169
9.2 搜索數據分析與預測 173
第10章 大數據安全 177
10.1 大數據安全概述 178
10.2 大數據安全現狀 178
10.2.1 國際發展現狀 178
10.2.2 國內發展現狀 179
10.3 大數據安全風險分析 179
10.3.1 生產階段大數據安全分析 180
10.3.2 采集階段大數據安全分析 181
10.3.3 傳輸階段大數據安全分析 181
10.3.4 存儲階段大數據安全分析 182
10.3.5 分析和使用階段大數據安全分析 182
10.3.6 銷毀階段大數據安全分析 183
10.4 大數據安全防護體系總體架構 183
10.4.1 大數據安全管理 184
10.4.2 大數據安全技術 184
10.4.3 大數據安全運營 188
習題 188
參考文獻 189
