大數據技術原理與應用
余明、吳文波、禹謝華
- 出版商: 清華大學
- 出版日期: 2025-08-01
- 售價: $390
- 語言: 簡體中文
- 頁數: 324
- ISBN: 7302698783
- ISBN-13: 9787302698784
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書系統介紹了大數據的相關知識及應用,重視理論與實驗的結合。全書共14章,理論部分包含大數據概述、大數據平臺Hadoop、分布式文件系統、分布式並行編程模型MapReduce、數據倉庫Hive、分布式數據庫HBase、基於內存的編程模型Spark、流計算與Storm、大數據采集與預處理、大數據存儲與管理、大數據分析與挖掘、大數據可視化、大數據安全與治理、大數據應用案例。
作者簡介
余明,現為福建師範大學地科院、閩南科技大學計算機信息學院教授。研究方向:地學及GIS應用,大數據技術及其應用。在國內外學術期刊發表論文60余篇,被三大檢索論文10幾篇、專著2部,主編21世紀高校教材5本。近期主持省級慕課《地理信息系統導論》等三門課程,校級名師。
目錄大綱
目錄
第1章大數據概述
1.1數據和大數據
1.1.1數據定義
1.1.2數據與信息/知識/智慧的關系
1.1.3大數據的定義
1.2數據科學
1.2.1關於數據科學
1.2.2數據科學的基本流程
1.2.3數據科學家常用的工具
1.3數據結構
1.3.1結構化數據
1.3.2半結構化數據
1.3.3非結構化數據
1.4大數據特征及對科學研究的影響
1.4.1大數據的數據特征
1.4.2大數據對科學研究的影響
1.4.3大數據時代的新理念
1.5大數據產生方式及來源
1.5.1大數據的發展歷程
1.5.2大數據產生方式
1.5.3大數據的來源
1.6大數據技術及架構
1.6.1大數據技術
1.6.2大數據架構
1.7大數據計算模式
1.7.1批處理計算
1.7.2流計算
1.7.3圖計算
1.7.4查詢分析計算
1.8大數據產業
1.8.1IT基礎設施層
1.8.2數據源層
1.8.3數據管理層
1.8.4數據分析層
1.8.5數據平臺層
1.8.6數據應用層
1.9大數據處理的基本流程
1.9.1數據采集、清洗和預處理
1.9.2數據存儲
1.9.3數據分析與挖掘
1.9.4結果可視化
1.10大數據關鍵技術簡介
1.10.1分布式計算
1.10.2分布式文件系統
1.10.3分布式數據庫
1.10.4數據倉庫和NoSQL數據庫
1.10.5雲計算與虛擬化
1.10.6物聯網與大數據
1.10.7人工智能與大數據
1.10.8區塊鏈與大數據
1.11大數據的應用領域
1.11.1大數據在醫療領域中的應用
1.11.2大數據在金融領域中的應用
1.11.3大數據在能源領域中的應用
1.11.4大數據在電子商務平臺的應用
1.11.5大數據在教育領域中的應用
1.12實驗項目1: CentOS 7虛擬機的安裝
1.12.1安裝VMware Workstation Pro 16
1.12.2安裝CentOS 7
1.12.3安裝並使用Xshell 8
1.12.4安裝和使用WinSCP
1.12.5拍攝虛擬機快照
思考題
第2章大數據平臺Hadoop
2.1Hadoop簡介
2.1.1Hadoop特性
2.1.2Hadoop應用現狀
2.1.3Hadoop版本
2.2Hadoop架構
2.2.1總體架構
2.2.2HDFS概述
2.2.3Yarn概述
2.2.4MapReduce概述
2.2.5HDFS、Yarn、MapReduce三者關系
2.2.6Hadoop家族
2.3Hadoop安裝與使用
2.4實驗項目2: 搭建Hadoop偽分布式系統
2.4.1準備工作
2.4.2基礎配置
2.4.3安裝配置Hadoop
2.4.4啟動Hadoop
2.4.5拍攝虛擬機快照
思考題
第3章分布式文件系統
3.1HDFS及其特點
3.1.1HDFS優點
3.1.2HDFS缺點
3.2HDFS體系架構
3.2.1NameNode
3.2.2DataNode
3.2.3Client
3.2.4Secondary NameNode
3.2.5HDFS文件塊大小
3.3HDFS的工作機制
3.3.1機制體系
3.3.2安全模式
3.3.3機架策略
3.3.4負載均衡
3.4HDFS的工作流程
3.4.1NameNode啟動
3.4.2Secondary NameNode工作
3.4.3HDFS的讀流程
3.4.4HDFS的寫流程
3.4.5HDFS的刪除流程
3.5實驗項目3: HDFS命令行操作基礎與搭建Eclipse開發環境
3.5.1準備工作
3.5.2HDFS命令實操
3.5.3Eclipse安裝及配置
3.5.4安裝配置JDK
3.5.5安裝和配置Maven
3.5.6安裝配置Hadoop
3.5.7測試Hadoop單詞統計程序
思考題
第4章分布式並行編程模型MapReduce
4.1分布式並行編程模型及主要類型
4.2MapReduce的簡介
4.3MapReduce的基本概念
4.3.1兩個階段
4.3.2三層含義
4.4主要技術特征和優缺點
4.4.1主要技術特征
4.4.2主要優缺點
4.5工作流程
4.6用途與使用要求
4.6.1用途
4.6.2使用要求
4.7典型案例
4.8實驗項目4: MapReduce編程基礎
4.8.1準備工作
4.8.2創建Hadoop項目框架
4.8.3編寫WorkCount程序
思考題
第5章數據倉庫Hive
5.1Hive的特點及功能
5.1.1Hive的特點
5.1.2Hive的功能
5.2Hive工作原理及架構組成
5.2.1工作原理
5.2.2架構組成
5.3實驗項目5: Hive的安裝與使用
5.3.1準備工作
5.3.2安裝MySQL
5.3.3安裝配置Hive
5.3.4Hive數據庫操作
5.3.5Hive表操作
5.3.6數據查詢
5.3.7拍攝虛擬機快照
思考題
第6章分布式數據庫HBase
6.1HBase的特點及適用場景
6.1.1HBase的特點
6.1.2HBase的適用場景
6.2HBase的結構及數據模型
6.2.1HBase的結構
6.2.2HBase的數據模型
6.3HBase與傳統關系數據庫
6.4實驗項目6: HBase的安裝與使用
6.4.1準備工作
6.4.2HBase安裝和配置
6.4.3HBase shell命令
6.4.4插入和更新數據
6.4.5刪除數據
6.4.6拍攝虛擬機快照
思考題
第7章基於內存的編程模型Spark
7.1Spark概述
7.1.1Spark的誕生
7.1.2Spark的特點
7.2Spark的架構及核心
7.2.1Spark的架構基礎
7.2.2核心內容
7.3Spark的四大組件
7.3.1Spark SQL
7.3.2Spark 流
7.3.3MLlib機器學習庫
7.3.4GraphX
7.4實驗項目7: Spark的安裝與編程基礎
7.4.1準備工作
7.4.2安裝配置Scala
7.4.3安裝配置Spark
7.4.4Spark編程操作
7.4.5拍攝虛擬機快照
思考題
第8章流計算與Storm
8.1流計算概述
8.1.1流數據特征
8.1.2流計算概念
8.2流計算處理流程及應用場景
8.2.1處理流程
8.2.2應用場景
8.3開源流計算框架
8.3.1Storm的特點和應用
8.3.2Storm工作原理
8.4實驗項目8: Storm的安裝與編程基礎
8.4.1安裝Storm
8.4.2編寫Storm程序
8.4.3拍攝虛擬機快照
思考題
第9章大數據采集與預處理
9.1大數據采集概述
9.1.1大數據采集的類型
9.1.2大數據采集的方式
9.2ETL技術
9.2.1數據抽取
9.2.2數據轉換
9.2.3數據加載
9.3ETL工具
9.3.1ETL工具選擇
9.3.2主流的ETL工具
9.4數據預處理
9.4.1數據預處理內容
9.4.2數據預處理主要步驟
9.4.3不同數據格式的預處理
9.5實驗項目9: Kettle操作基礎
9.5.1準備工作
9.5.2安裝Kettle
9.5.3運行Kettle
9.5.4建立數據庫連接
9.5.5表輸入
9.5.6CSV輸入
9.5.7Excel輸入
9.5.8生成記錄
9.5.9生成隨機數
思考題
第10章大數據存儲與管理
10.1數據庫的演變
10.1.1人工管理階段
10.1.2文件系統階段
10.1.3數據庫系統階段
10.1.4關系數據庫階段
10.1.5大數據與人工智能集成階段
10.2NoSQL數據庫
10.2.1NoSQL數據庫的提出
10.2.2NoSQL數據庫特征
10.2.3NoSQL數據庫優勢
10.2.4NoSQL數據庫分類
10.3數據管理理論
10.3.1相關理論簡介
10.3.2ACID、CAP和BASE理論比較
10.4實驗項目10: Redis的安裝與操作基礎
10.4.1Redis的安裝
10.4.2Redis的基礎操作
10.4.3Redis圖形客戶端的使用
思考題
第11章大數據分析與挖掘
11.1大數據分析的概念
11.1.1認識數據分析
11.1.2大數據分析的類型
11.1.3大數據分析的步驟
11.2大數據分析的方法
11.2.1分類
11.2.2回歸
11.2.3聚類
11.2.4關聯規則
11.3認識數據挖掘
11.3.1數據挖掘流程
11.3.2數據挖掘技術
11.3.3數據挖掘應用
11.4數據挖掘常見算法
11.4.1k-means算法
11.4.2KNN算法
11.4.3樸素貝葉斯算法
11.4.4決策樹算法
11.4.5支持向量機算法
11.4.6神經網絡算法
11.5實驗項目11: BP神經網絡應用案例
11.5.1安裝Miniconda3
11.5.2使用Miniconda3
11.5.3安裝PyCharm
11.5.4創建並配置項目
11.5.5編寫圖片查看程序
11.5.6編寫數字識別程序
思考題
第12章大數據可視化
12.1數據可視化概述
12.1.1認識數據可視化
12.1.2數據可視化形式和功能
12.2大數據可視化方法
12.2.1文本可視化
12.2.2社交網絡可視化
12.2.3地理空間可視化
12.3關於數據可視化工具
12.3.1Excel
12.3.2Tableau
12.3.3ECharts
12.3.4D3
12.3.5Python
12.3.6R
12.3.7其他
12.4實驗項目12: 數據可視化編程基礎
12.4.1準備工作
12.4.2安裝庫
12.4.3打開項目
12.4.4編寫數據可視化程序
12.4.5運行程序
思考題
第13章大數據安全與治理
13.1大數據安全概述
13.1.1認識數據安全
13.1.2大數據安全的挑戰
13.1.3大數據安全的關鍵技術
13.2數據治理
13.2.1數據治理概述
13.2.2數據治理目標及實現
思考題
第14章大數據應用案例
14.1天文大數據及其應用
14.2地理大數據及其應用
思考題
參考文獻