大數據分析與計算

湯羽林迪範愛華吳薇薇

  • 出版商: 清華大學出版社
  • 出版日期: 2018-03-01
  • 定價: $0
  • 售價: $0
  • 語言: 簡體中文
  • 裝訂: 平裝
  • ISBN: 7302485860
  • ISBN-13: 9787302485865
  • 相關分類: 大數據

下單後立即進貨 (4週~6週)

商品描述

1)對大數據計算的標準、模型、計算架構、開發技術體係做了一個較完整的論述和總結,適宜於作為計算機和軟件工程專業高年級課程或研究生課程的教材
2)本書也對大數據計算架構和開發平台及技術進行了論述,給出了相關領域的工程案例,也可作為IT技術人士的專業參考書。

作者簡介

湯羽,博士/教授,上海交通大學工學學士,重慶大學工學碩士,美國Bowie State University計算機科學碩士,美國The George Washington University計算機科學博士。現任電子科技大學信息與軟件工程學院專業首席教授、校學術委員會委員、學院教學指導委員會主任、lnt.J.Computer and Management Sys.雜誌編輯、中國衛生信息學會電子健康檔案與區域衛生信息化專業委員會委員、教育部留學回國科研啟動基金評審專家、中國博士後科研基金評審專家、教育部學位與研究生教育質量評審專家。曾任職美國雷神公司(Raytheon)高級軟件架構師,長期從事大數據計算技術、雲計算架構。移動互聯應用等方面的研究與開發工作,在國內外雜誌及國際會議上發表論文30篇,獲軟件著作權2項。主講研究生課程《軟件架構模型與設計》、本科生課程《大數據計算技術》、《信息科學前沿講座》等。林迪,博士/副教授,哈爾濱工業大學通信工程學士、碩士,加拿大McGill大學計算機工程博士。現任電子科技大學信息與軟件工程學院副教授。主要從事大數據挖掘、物聯網、移動醫療等方面的教學與科研工作,主持國家自然基金青年項目,以第一作者發表SCI檢索論文8篇,EI檢索論文10餘篇。範愛華,碩士/副教授,陝西師範大學理學學士。北京師範大學理學碩士。現任西安工程大學計算機科學學院副教授。主要從事教育技術、數字媒體技術、大數據分析應用等方面的教學與科研工作,在國內外雜誌和學術會議上已發表論文15篇,獲技術專利2項。吳薇薇,碩士/分析師,中國地質大學(北京)管理科學與工程碩士,加拿大渥太華大學理學碩士。曾就職於IBM、亞馬遜、及澳新銀行。主要從事數據處理、數據分析、數學建模、及其他大數據分析應用方面的實踐工作。在國內外雜誌和學術會議上發表論文5篇。

目錄大綱

第1章緒論
1.1數據與數據科學
1.2大數據概念
1.3大數據技術特徵
參考文獻
習題

第2章大數據計算體系
2.1大數據計算架構
2.2數據存儲系統
2.2.1數據清洗與建模
2.2.2分佈式文件系統
2.2.3NoSQL數據庫
2.2.4統一數據訪問接口
2.3數據處理平台
2.3.1數據分析算法
2.3.2計算處理模型
2.3.3計算平台與引擎
2.4數據應用系統
2.4.1大數據應用領域
2.4. 2大數據解決方案
參考文獻
習題

第3章大數據標準與模式
3.1大數據標準體系
3.2大數據計算模式
參考文獻
習題

第4章數據採集方法
4.1系統日誌採集
4.1.1日誌採集的目的
4.1.2日誌採集過程
4.2網絡數據採集
4.2.1網絡爬蟲工作原理
4.2.2網頁搜索策略
4.2.3網頁分析算法
4.2.4網絡爬蟲框架
4.3数据采集接口
参考文献
習题

第5章数据清洗与规约方法
5.1数据预处理研究现状
5.1.1数据清洗的研究现状
5.1.2数据规约的研究现状
5.2数据质量问题分类
5.2.1单数据源的问题
5.2.2多数据源的问题
5.3数据清洗技术
5.3.1重复记录清洗
5.3.2消除噪声数据
5.3.3缺失值清洗
5.4数据归约
5.4.1维归约
5.4.2属性选择
5.4.3离散化方法
5.5数据清洗工具
参考文献
習题

第6章数据分析算法
6.1C4.5算法
6.1.1算法描述
6.1.2属性选择度量
6.1.3其他特征
6.2k均值算法
6.3支持向量机
6.4Apriori算法
6.5EM算法
6.5.1案例: 估计k个高斯分布的均值
6.5.2EM算法步骤
6.6PageRank算法
6.6.1PageRank的核心思想
6.6.2PageRank的计算过程
6.7AdaBoost算法
6.7.1Boosting算法的发展历史
6.7.2AdaBoost算法及其分析
6.8k邻近算法
6.9朴素贝叶斯
6.9.1朴素貝叶斯分类器
6.9.2贝叶斯网络
6.10分类回归树算法
6.10.1建立回归树
6.10.2剪枝過程
参考文献
習题

第7章文本讀寫技術
7.1讀取文本文件
7.1.1讀取txt文件
7.1.2讀取csv文件
7.2寫入文本文件
7.3處理二進制数據
7.4数據庫的使用
7.4.1数据库的連接
7.4.2執行SQL语句
7.4.3選擇和打印
7.4.4動態插入
7.4.5update操作
参考文献
習题

第8章数據處理技術
8.1合併数据集
8.1.1索引上的合并
8.1.2轴向连接
8.1.3合并重叠数据
8.2数据转换
8.2.1移除重复数据
8.2.2利用函数进行数据转换
8.2.3替换值
8.2.4重命名轴索引
8.2.5离散化数据
8.2.6检测异常值
8.2.7排列和随机采样
8.2.8哑变量
8.3字符串操作
8.3.1内置字符串方法
8.3.2正则表达式
8.3.3Pandas中矢量化的字符串函数
参考文献
習题

第9章数据分析技术
9.1NumPy工具包
9.1.1创建数组
9.1.2打印数组
9.1.3基本运算
9.1.4索引、切片和迭代
9.1.5形状操作
9.1.6复制和视图
9.1.7NumPy实用技巧
9.2Pandas工具包
9.2.1Series
9.2.2DataFrame
9.3ScikitLearn工具包
9.3.1逻辑回归
9.3.2朴素贝叶斯
9.3.3k最近邻
9.3.4决策树
9.3.5支持向量机
9.3.6优化算法参数
参考文献
習题

第10章数据可视化技术
10.1Matplotlib绘图
10.1.1Matplotlib API入门
10.1.2Figure和Subplot的画图方法
10.1.3调整Subplot周围的间距
10.1.4颜色、标记和线型的设置
10.1.5刻度、标签和图例
10.2Mayavi2绘图
10.2.1使用mlab快速绘图
10.2.2Mayavi嵌入到界面中
10.3其他图形化工具
参考文献
習题

第11章Hadoop生态系统
11.1Hadoop系统架构
11.2HDFS分布式文件系统
11.2.1HDFS体系结构
11.2.2HDFS存储结构
11.2.3数据容错与恢复
11.2.4Hadoop/HDFS安装
11.3分布式存储架构
11.3.1HBase系统架构
11.3.2数据模型与存储模式
11.3.3HBase数据读写
11.3.4数据仓库工具Hive
11.3.5HBase安装与配置
11.4HBase索引与检索
11.4.1二次索引表机制
11.4.2二次索引技术方案
11.5资源管理与作业调度
11.5.1分布式协同管理组件ZooKeeper
11.5.2作业调度与工作流引擎Oozie
11.5.3集群资源管理框架YARN
参考文献
習题

第12章MapReduce计算模型
12.1分布式并行计算系统
12.2MapReduce计算架构
12.3键值对与输入格式
12.4映射与化简
12.5应用编程接口
参考文献
習题

第13章图并行计算框架
13.1图基本概念
13.2BSP模型
13.3Pregel图计算引擎
13.4Hama开源框架
13.5应用编程接口
参考文献
習题

第14章交互式计算模式
14.1数据模型
14.2存储结构
14.3并行查询
14.4开源实现
参考文献
習题

第15章流计算系统
15.1流计算模型
15.2Storm计算架构
15.3工作机制实现
15.4Storm编程接口
参考文献
習题

第16章内存计算模式
16.1分布式缓存体系
16.2内存数据库
16.3内存云MemCloud
16.4Spark内存计算
参考文献
習题

第17章基于医疗数据的临床决策分析应用
17.1国内外研究现状及发展动态分析
17.2技术路线和方案
参考文献
習题

第18章基於醫保數據的預測分析應用
18.1數據準備階段
18.2模型變量選擇和轉換
18.2.1模型變量的選擇
18.2.2模型變量的轉換
18.2.3篩選模型變量
18.3建模過程
18.4模型效果
參考文獻
習題

第19章互聯網電商數據的分析應用
19.1電商流程管理分析
19.1.1行業背景與業務問題
19.1.2分析方法與過程
19.2用戶消費行為分析
19.2.1業務問題
19.2.2分析方法與過程
19.3送貨速度相關性分析
19.3.1業務問題
19.3.2分析方法與過程
19.4總結
參考文獻
習題

第20章金融和經濟數據的分析應用
20.1企業對創新經濟活動推動的影響分析
20.1.1案例背景
20.1.2分析方法與過程
20.2信貸風險模型評估
20.3中小能源型企業的信用評價分析
20.3.1案例背景
20.3.2分析方法與過程
20.3.3分析結果
參考文獻
習題