大數據分析--基礎與應用

張德海

商品描述

本書從大數據的基本概念出發,以大數據的分析為基礎,通過回顧大數據的起源、特性探討大數據與雲計算、人工智能的關系,以及大數據在典型應用場景中的實際應用。從多個維度深入介紹大數據分析的技術體系,包括大數據分析的基礎框架、大數據處理過程、大數據分析應用、大數據可視化技術和大數據安全等核心內容。 本書詳細介紹了Hadoop、Spark、Storm等主流的大數據處理框架,對這些框架進行了對比分析,還提供了它們的配置過程與使用教程。讀者能夠根據自身需求選擇合適的框架,並順利完成配置與部署。介紹了回歸分析、分類算法、集成學習、卷積神經網絡(CNN)、循環神經網絡(RNN)及對抗學習等常用的大數據分析算法。還詳細介紹了文本可視化、網絡可視化、時空數據可視化、多維數據可視化等常用的可視化技術手段以及常用工具的功能、特點和適用場景,並講解了6個具有代表性的大數據分析案例項目。 本書可作為高等學校計算機類專業本科生和研究生的教材,也適合大數據分析初學者及希望提升實踐技能的從業者使用。

作者簡介

張德海,博士,雲南大學副教授,雲南大學中青年骨幹教師,雲南省青年骨幹教師。IEEE會員,中國人工智能學會(CAAI)會員,國際計算機科學與信息技術學會(IACSIT)會員。主要從事人工智能、知識工程、系統分析與集成及大數據分析的研究。 主持國家基金、省基金及橫向項目20餘項,發表論文30餘篇,公開申請國際發明專利及國家發明專利15項,軟件著作權12項。參與雲南省政府政策研究室項目,主持或參與多個智慧城市、領域大數據應用項目。

目錄大綱

第1篇:大數據理論基礎
第1章 大數據分析概述
1.1 什麼是大數據
1.1.1 大數據的起源與發展
1.1.2 大數據的4V特點
1.1.3 大數據與雲計算
1.1.4 大數據與人工智能
1.1.5 大數據的典型應用場景
1.2 大數據分析技術體系
1.2.1 大數據分析基礎框架
1.2.2 大數據處理過程
1.2.3 大數據分析應用
1.2.4 大數據可視化
1.2.5 大數據安全與治理
1.3 大數據處理的技術體系
本章小結
思考題
第2章 主流大數據處理框架
2.1 Hadoop生態系統簡介
2.1.1 Hadoop起源和特點
2.1.2 Hadoop架構與核心部件
2.1.3 Hadoop的版本選擇
2.2 Spark處理框架
2.2.1 Spark的起源和特點
2.2.2 彈性分布式數據集——RDD
2.2.3 Spark的生態圈
2.3 流處理框架Storm
2.3.1 Storm的起源和應用場景
2.3.2 Storm的架構和原理特性
2.3.3 Hadoop、Spark和Storm的對比
2.4 大數據處理框架
2.4.1 Oracle大數據處理框架
2.4.2 IBM大數據處理框架
2.4.3 SAP Hana大數據處理框架
2.4.4 Teradata大數據處理框架
2.4.5 大數據框架之間的對比
本章小結
思考題
第3章 大數據分析算法基礎
3.1 大數據分析簡介
3.2 機器學習算法
3.2.1 回歸分析
3.2.2 分類分析
3.2.3 集成學習
3.3 深度學習基礎與神經網絡模型
3.3.1 深度學習
3.3.2 人工神經網絡
3.3.3 激活函數
3.4 常用數據分析工具
3.4.1 Mahout
3.4.2 Hive
本章小結
思考題
第2篇:大數據配置與環境搭建
第4章 大數據分析環境搭建
4.1 操作系統與環境需求
4.1.1 Linux簡介
4.1.2 Linux安裝
4.2 Hadoop集群配置與部署
4.2.1 安裝環境準備
4.2.2 安裝CM
4.2.3 安裝CDH
4.3 Spark環境配置
4.4 數據庫與數據存儲配置
4.4.1 Hive數據倉庫
4.4.2 Hbase數據庫
本章小結
思考題
第5章 大數據可視化技術
5.1 可視化技術簡介
5.2 數據可視化技術
5.2.1 文本數據可視化
5.2.2 網絡數據可視化
5.2.3 時空數據可視化
5.2.4 多維數據可視化
5.3 常用的可視化工具
5.3.1 Tableau
5.3.2 ECharts
5.3.3 R語言
5.3.4 GeoFlow
本章小結
思考題
第3篇:實踐案例分析
第6章 微博熱點與情感分析案例實踐
6.1 數據采集與預處理
6.1.1 數據集說明
6.1.2 數據質量及統計分析
6.2 數據分析算法介紹
6.2.1 DBSCAN算法
6.2.2 DFA算法
6.2.3 TF-IDF算法
6.2.4 TextRank算法
6.3 數據分析算法應用
6.3.1 城市熱點區域分析
6.3.2 情感傾向分析
6.3.3 熱點主題分析
6.3.4 敏感詞監控
本章小結
思考題
第7章 基於協同過濾的新聞推薦系統
7.1 推薦系統基礎
7.2 協同過濾算法實現
7.2.1 基於瀏覽喜好的推薦算法
7.2.2 基於標簽的推薦算法
7.3 系統設計與實現
7.3.1 新聞推薦系統界面實現
7.3.2 新聞推薦系統關鍵代碼說明
本章小結
思考題
第8章 基於圖神經網絡的電影數據分析及可視化實踐
8.1 數據獲取與處理
8.1.1 數據爬取分析與實現
8.1.2 數據處理
8.1.3 數據爬取代碼分析
8.2 電影數據分析案例
8.2.1 歸納協同過濾
8.2.2 數據集劃分
8.2.3 矩陣分解
8.2.4 推薦模型實現
8.3 可視化設計與實現
8.3.1 系統可視化數據設計
8.3.2 系統可視化結果演示
本章小結
思考題
第9章 基於知識圖譜的人物關系分析
9.1 知識圖譜基礎
9.2 人物關系數據獲取與處理
9.2.1 人物關系數據爬取
9.2.2 利用Pandas進行關系的對稱填補
9.3 關系查詢與最短關系路徑的計算
9.3.1 Neo4j
9.3.2 Cypher
9.3.3 關系查詢的具體實現
9.3.4 最短關系路徑計算
9.4 問答系統分類模型設計
9.4.1 系統整體架構設計
9.4.2 模塊說明
本章小結
思考題
第10章 基於大數據的新聞評論情感分析系統實踐
10.1 新聞評論數據獲取與處理
10.2 情感分析算法應用
10.2.1 訓練集介紹
10.2.2 數據預處理
10.2.3 TextCNN神經網絡
10.2.4 模型訓練流程
10.3 系統設計與實現
10.3.1 大數據後端架構
10.3.2 大數