開源大數據分析引擎 Impala 實戰 开源大数据分析引擎Impala实战

賈傳青

  • 出版商: 清華大學
  • 出版日期: 2015-03-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 329
  • 裝訂: 平裝
  • ISBN: 7302390029
  • ISBN-13: 9787302390022
  • 相關分類: 大數據 Big-data資料科學

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

 

<內容簡介>

    Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。Impala 1.0版比原來基於MapReduce的Hive SQL查詢速度提升3?90倍,因此,Impala有可能完全取代Hive。作者賈傳青基於自己在本職工作中應用Impala的實踐和心得編寫了這本《開源大數據分析引擎Impala實戰》。
    本書共分10章,全面介紹開源大數據分析引擎Impala的技術背景、安裝與配置、架構、操作方法、性能優化,以及最富技術含量的應用設計原則和應用案例。
    本書緊扣目前計算技術發展熱點,適合所有大數據分析人員、大數據開發人員和大數據管理人員參考使用。

<章節目錄>

第1章  Impala概述、安裝與配置
  1.1 Impala概述
  1.2 Cloudera Manager安裝準備
  1.3 CM及 CDH安裝
  1.4 Hive安裝
  1.5 Impala安裝
第2章  Impala入門示例
  2.1 數據加載
  2.2 數據查詢
  2.3 分區表
  2.4 外部分區表
  2.5 笛卡爾連接
  2.6 更新元數據
第3章  Impala概念及架構
  3.1 Impala服務器組件
    3.1.1 Impala Daemon
    3.1.2 Impala Statestore
    3.1.3 Impala Catalog
  3.2 Impala應用編程
    3.2.1 Impala SQL方言
    3.2.2 Impala編程接口概述
  3.3 與Hadoop生態系統集成
    3.3.1 與Hive集成
    3.3.2 與HDFS集成
    3.3.3 使用HBase
第4章  SQL語句
  4.1 註釋
  4.2 數據類型
    4.2.1 BIGINT
    4.2.2 BOOLEAN
    4.2.3 DOUBLE
    4.2.4 FLOAT
    4.2.5 INT
    4.2.6 REAL
    4.2.7 SMALLINT
    4.2.8 STRING
    4.2.9 TIMESTAMP
    4.2.10 TINYINT
  4.3 常量
    4.3.1 數值常量
    4.3.2 字符串常量
    4.3.3 布爾常量
    4.3.4 時間戳常量
    4.3.5 NULL
  4.4 SQL操作符
    4.4.1 BETWEEN操作符
    4.4.2 比較操作符
    4.4.3 IN操作符
    4.4.4 IS NULL操作符
    4.4.5 LIKE操作符

    4.4.6 REGEXP操作符
  4.5 模式對象和對象名稱
    4.5.1 別名
    4.5.2 標示符
    4.5.3 數據庫
    4.5.4 表
    4.5.5 視圖
    4.5.6 函數
  4.6 SQL語句
    4.6.1 ALTER TABLE
    4.6.2 ALTER VIEW
    4.6.3 COMPUTE STATS
    4.6.4 CREATE DATABASE
    4.6.5 CREATE FUNCTION
    4.6.6 CREATE TABLE
    4.6.7 CREATE VIEW
    4.6.8 DESCRIBE
    4.6.9 DROP DATABASE
    4.6.10 DROP FUNCTION
    4.6.11 DROP TABLE
    4.6.12 DROP VIEW
    4.6.13 EXPLAIN
    4.6.14 INSERT
    4.6.15 INVALIDATE METADATA
    4.6.16 LOAD DATA
    4.6.17 REFRESH
    4.6.18 SELECT
    4.6.19 SHOW
    4.6.20 USE
  4.7 內嵌函數
    4.7.1 數學函數
    4.7.2 類型轉換函數
    4.7.3 時間和日期函數
    4.7.4 條件函數
    4.7.5 字符串函數
    4.7.6 特殊函數
  4.8 聚集函數
    4.8.1 AVG
    4.8.2 COUNT
    4.8.3 GROUP_CONCAT
    4.8.4 MAX
    4.8.5 MIN
    4.8.6 NDV
    4.8.7 SUM
  4.9 用戶自定義函數UDF
    4.9.1 UDF概念
    4.9.2 安裝UDF開發包
    4.9.3 編寫UDF
    4.9.4 編寫UDAF
    4.9.5 編譯和部署UDF

    4.9.6 UDF性能
    4.9.7 創建和使用UDF示例
    4.9.8 UDF安全
    4.9.9 Impala UDF的限制
  4.10 Impala SQL &Hive QL
  4.11 將 SQL移植到Impala上
第5章  Impala shell
  5.1 命令行選項
  5.2 連接到Impalad
  5.3 運行命令
  5.4 命令參考
  5.5 查詢參數設置
第6章  Impala管理
  6.1 準入控制和查詢隊列
    6.1.1 準入控制概述
    6.1.2 準入控制和YARN
    6.1.3 併發查詢限制
    6.1.4 準入控制和Impala客戶端協同工作
    6.1.5 配置準入控制
    6.1.6 使用準入控制指導原則
  6.2 使用YARN資源管理(CDH5)
    6.2.1 Llama進程
    6.2.2 檢查計算的資源和實際使用的資源
    6.2.3 資源限制如何生效
    6.2.4 啟用Impala資源管理
    6.2.5 資源管理相關impala-shell參數
    6.2.6 Impala資源管理的限制
  6.3 為進程,查詢,會話設定超時限制
  6.4 通過代理實現Impala高可用性
  6.5 管理磁盤空間
第7章  Impala存儲
  7.1 文件格式選擇
  7.2 Text
    7.2.1 查詢性能
    7.2.2 創建文本表
    7.2.3 數據文件
    7.2.4 加載數據
    7.2.5 LZO壓縮
  7.3 Parquet
    7.3.1 創建Parquet表
    7.3.2 加載數據
    7.3.3 查詢性能
    7.3.4 Snappy/Gzip壓縮
    7.3.5 與其他組件交換 Parquet數據文件
    7.3.6 Parquet數據文件組織方式
  7.4 Avro
    7.4.1 創建Avro表
    7.4.2 使用Hive創建的Avro表
    7.4.3 通過JSON指定Avro模式
    7.4.4 啟用壓縮

    7.4.5 模式進化
  7.5 RCFile
    7.5.1 創建RCFile表和加載數據
    7.5.2 啟用壓縮
  7.6 SequenceFile
    7.6.1 創建和加載數據
    7.6.2 啟用壓縮
  7.7 HBase
    7.7.1 支持的 Hbase列類型
    7.7.2 性能問題
    7.7.3 適用場景
    7.7.4 數據加載
    7.7.5 啟用壓縮
    7.7.6 限制
    7.7.7 示例
第8章  Impala分區
  8.1 分區技術適用場合
  8.2 分區表相關 SQL語句
  8.3 分區修剪
  8.4 分區鍵列
  8.5 使用不同的文件格式
第9章  Impala性能優化
  9.1 最佳實踐
  9.2 連接查詢優化
  9.3 使用統計信息
  9.4 基準測試
  9.5 控制資源使用
  9.6 性能測試
  9.7 使用 EXPLAIN信息
  9.8 使用 PROFILE信息
第10章  Impala設計原則與應用案例
  10.1 設計原則
  10.2 應用案例