深入淺出大數據 深入浅出系列规划教材:深入浅出大数据

宋智軍

  • 出版商: 清華大學
  • 出版日期: 2016-03-01
  • 定價: $294
  • 售價: 8.5$250
  • 語言: 簡體中文
  • 頁數: 368
  • 裝訂: 平裝
  • ISBN: 7302421811
  • ISBN-13: 9787302421818
  • 相關分類: 大數據 Big-data

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

<內容介紹>   

 宋智軍編著的《深入淺出大數據(深入淺出系列規劃教材)》堅持以大數據基礎和應用為主導的編寫原則,理論聯繫實際,並通過大量實例循序漸進地為讀者介紹了進行大數據實踐所涉及的各類知識。為了更好地幫助讀者在短時間內掌握大數據基礎理論知識和實踐能力,全書的基礎知識介紹清晰,理論聯繫實際,具有很強的操作性,並提供了大量通過測試可運行的完整實例,這些實例都給出了設計步驟、代碼詳解及程序運行結果,對於容易出現問題的地方,則以「註」的方式介紹常用的技巧和註意事項。另外本書的配套資料可從清華大學出版社網站(www.tup.com.cn)上下載。
    本書可作為電腦專業的本科生和研究生的大數據基礎教材,也可作為大數據技術培訓、Hadoop應用開發和運行維護人員的必備參考書。

<章節目錄>

第1章  大數據概述
  1.1  大數據發展歷程
  1.2  大數據的定義及特徵
    1.2.1  大數據定義
    1.2.2  大數據的關鍵特徵
  1.3  大數據與傳統數據的區別
    1.3.1  數據思維
    1.3.2  數據處理
    1.3.3  數據分析
  1.4  大數據的核心價值
  1.5  大數據安全與隱私保護
    1.5.1  基礎設施安全
    1.5.2  數據隱私
    1.5.3  數據治理
    1.5.4  被動安全機制
第2章  大數據關鍵技術
  2.1  大數據採集與預處理技術
    2.1.1  Flume
    2.1.2  Scribe
    2.1.3  Kafka
    2.1.4  Time Tunne
    2.1.5  Chukwa
  2.2  大數據存儲與管理技術
    2.2.1  分佈式文件系統
    2.2.2  分佈式數據庫
  2.3  大數據分析與挖掘技術
    2.3.1  傳統數據分析與挖掘方法
    2.3.2  大數據分析與挖掘方法
    2.3.3  大數據分析與挖掘框架
  2.4  大數據應用與展現技術
    2.4.1  大數據應用
    2.4.2  大數據可視化
第3章  基於Hadoop的大數據生態系統
  3.1  Hadoop概述
    3.1.1  Hadoop發展歷程
    3.1.2  Hadoop特點
    3.1.3  Hadoop核心思想
  3.2  Hadoop家族成員
  3.3  Hadoop生態系統
    3.3.1  Hadoop 1.0生態系統
    3.3.2  Hadoop 2.0生態系統
  3.4  Hadoop集群架構
    3.4.1  Hadoop 1.0生態系統的集群架構
    3.4.2  Hadoop 2.0生態系統的集群架構
  3.5  Hadoop運行環境
    3.5.1  硬件環境
    3.5.2  軟件環境
    3.5.3  網絡環境
  3.6  Hadoop集群的安裝與配置
    3.6.1  準備工作

    3.6.2  Hadoop部署
第4章  分佈式文件系統HDFS
  4.1  HDFS概述
  4.2  HDFS基本組成
    4.2.1  數據塊
    4.2.2  元數據節點
    4.2.3  輔助元數據節點
    4.2.4  數據節點
  4.3  HDFS體系架構
    4.3.1  Hadoop 1.0生態系統中HDFS體系架構
    4.3.2  Hadoop 2.0生態系統中HDFS體系架構
  4.4  HDFS核心功能
  4.5  HDFS通信機制
    4.5.1  RPC Interface
    4.5.2  RPC Client
    4.5.3  RPC Server
    4.5.4  RPC通信實現
  4.6  HDFS安全機制
    4.6.1  授權機制
    4.6.2  認證機制
  4.7  HDFS容錯機制
    4.7.1  副本策略
    4.7.2  心跳檢測
    4.7.3  H
    4.7.4  HDFS Federation
  4.8  HDFS快照機制
    4.8.1  快照原理
    4.8.2  適用場景
    4.8.3  基本操作
  4.9  HDFS讀寫機制
    4.9.1  HDFS讀機制
    4.9.2  HDFS寫機制
  4.10  HDFS常用操作
    4.10.1  dfs命令
    4.10.2  dfsadmin命令
    4.10.3  Web接口
    4.10.4  HDFS API
第5章  分佈式計算框架MapReduce
  5.1  MapReduce概述
  5.2  MapReduce原理
  5.3  MapReduce框架
    5.3.1  Hadoop 1.0生態系統中MapReduce框架
    5.3.2  Hadoop 2.0生態系統中MapReduce框架
  5.4  MapReduce開發環境
    5.4.1  搭建MapReduce開發環境
    5.4.2  開發MapReduce應用程序
  5.5  MapReduce編程過程
    5.5.1  InputFormat
    5.5.2  Map
    5.5.3  Combine/Partition

    5.5.4  Reduce
    5.5.5  OutputFormat
  5.6  MapReduce開發實例
    5.6.1  MapReduce編程
    5.6.2  實例解析
第6章  資源管理框架YARN
  6.1  YARN概述
  6.2  YARN體系架構
    6.2.1  ResourceManager
    6.2.2  NodeManager
    6.2.3  ApplicationMaster
    6.2.4  Container
  6.3  YARN工作流程
  6.4  YARN通信機制
  6.5  YARN安全機制
    6.5.1  認證機制
    6.5.2  授權機制
  6.6  YARN容錯機制
  6.7  YARN資源調度機制
    6.7.1  FIFO Scheduler
    6.7.2  Fair Scheduler
    6.7.3  Capacity Scheduler
  6.8  可在YARN上運行的框架
  6.9  YARN編程實例
    6.9.1  編程過程
    6.9.2  DistributedShell實例
第7章  分佈式列存儲數據庫HBase
  7.1  HBase概述
  7.2  HBase特點
  7.3  HBase體系架構
  7.4  HBase安裝配置
    7.4.1  準備工作
    7.4.2  安裝HBase
    7.4.3  配置HBase
    7.4.4  啟停HBase
  7.5  HBase數據模型
    7.5.1  邏輯視圖
    7.5.2  物理視圖
  7.6  HBase關鍵技術
    7.6.1  HRegion定位
    7.6.2  HRegion分裂
    7.6.3  HBase讀寫機制
  7.7  HBase交互接口
    7.7.1  Native Java API
    7.7.2  HBase Shell
  7.8  HBase快照機制
第8章  數據倉?
  8.1  Hive概述
  8.2  Hive特點
  8.3  Hive體系架構

  8.4  Hive安裝配置
    8.4.1  準備工作
    8.4.2  安裝模式
    8.4.3  安裝Hive
    8.4.4  配置Hive
    8.4.5  啟動Hive
  8.5  Hive數據模型
  8.6  Hive數據類型
    8.6.1  基本數據類型
    8.6.2  複雜數據類型
    8.6.3  數據類型轉換
  8.7  Hive基本操作
    8.7.1  DDL操作
    8.7.2  DML操作
  8.8  Hive內置運算符
    8.8.1  關係運算符
    8.8.2  算術運算符
    8.8.3  邏輯運算符
    8.8.4  複雜運算符
  8.9  Hive內置函數
    8.9.1  數值計算函數
    8.9.2  日期函數
    8.9.3  條件函數
    8.9.4  字符串函數
    8.9.5  集合統計函數
  8.10  Hive實例
第9章  數據分析與挖掘Mahout
  9.1  Mahout概述
  9.2  Mahout安裝配置
    9.2.1  Mahout安裝
    9.2.2  Mahout配置
    9.2.3  Mahout測試
  9.3  Mahout演算法集
  9.4  分類演算法
    9.4.1  邏輯回歸
    9.4.2  貝葉斯
    9.4.3  隨機森林
  9.5  聚類演算法
    9.5.1  Canopy聚類
    9.5.2  K means聚類
  9.6  模式挖掘演算法
  9.7  協同過濾演算法
    9.7.1  收集用戶偏好
    9.7.2  相似度計算
    9.7.3  推薦計算
第10章  大數據應用
  10.1  大數據應用現狀及發展趨勢
    10.1.1  產業現狀
    10.1.2  應用現狀
    10.1.3  發展趨勢

  10.2  因特網大數據應用
  10.3  金融行業大數據應用
  10.4  電信行業大數據應用
  10.5  醫療行業大數據應用
  10.6  智慧交通大數據應用
  10.7  大數據應用案例
    10.7.1  因特網大數據應用案例
    10.7.2  智慧交通大數據應用案例
附表