Apache Drill學習手冊 Learning Apache Drill: Query and Analyze Structured Data

Charles Givre , Paul Rogers 譯 李凡希

  • 出版商: 中國電力
  • 出版日期: 2020-05-01
  • 定價: $528
  • 售價: 8.5$449
  • 語言: 簡體中文
  • 頁數: 356
  • 裝訂: 平裝
  • ISBN: 751984398X
  • ISBN-13: 9787519843984
  • 立即出貨

相關主題

商品描述

跟上Apache Drill的步伐!Apache Drill是一個可擴展的分佈式SQL查詢引擎,
它可以從各種主流文件格式中讀取數據,比如Parquet、JSON和CSV。
它可以訪問HDFS或類似S3這樣的原生雲存儲系統,可以與Hive metastore集成,
也可以與HBase、MongoDB這樣的分佈式數據庫或傳統的關係型數據庫集成。
它可以在你的筆記本電腦上運行,也可以被部署在超大規模的集群中。
在本書中,Charels Givre和Paul Rogers兩位Drill項目的Committer
向分析師和數據科學家展示瞭如何使用這個強大的工具對原始數據進行查詢和分析。
當今的數據科學家通常需要花費至少80%的時間在收集和清洗數據上,
通過閱讀本書你會了解到如何使用Drill更高效地分析數據,降低產出數據分析結果所需要的時間。

作者簡介

Charles Givre

是Apache Drill的PMC成員,他是德意志銀行中央安全辦公室的首席數據科學家。
他致力於培養數據科學家並教授數據分析技能,為此他還合夥創辦自己的培訓公司GTK Cyber​​。
他在全球各種會議和高校教授上述主題的內容。


Paul Rogers

是Apache Drill的PMC成員,他專注於Drill的執行引擎開發,同時也是一位數據庫和BI方面的軟件架構師。
他曾經在Cloudera、MapR、Oracle、Actuate和Informix工作。

目錄大綱

目錄
前言
第1章Apache Drill入門
什麼是Apache Drill
Drill用途廣泛
Drill非常易用
有關:Drill的性能
大數據簡史
大數據生態中的Drill
Drill與類似工具的比較

第2章安裝與運行
準備系統環境
Windows環境下的特殊配置
在Windows上安裝Drill
在Windows上啟動Drill
在macOS或Linux上安裝嵌入模式的Drill
在macOS或Linux上以嵌入模式運行Drill
在macOS或Linux上安裝分佈式模式的Drill
為Drill準備集群環境
啟動分佈式模式的Drill
連接集群
小結

第3章Apache Drill概述
Apache Hadoop生態
Drill是一個低延遲的查詢引擎
使用HDFS進行分佈式數據處理
Drill系統結構
Drill操作概覽
Drill是一個查詢引擎,不是數據庫
Drill操作概述
Drill組件
SQL會話狀態
編譯查詢語句
查詢語句執行
低延遲特性
小結
第4章查詢包含分隔符的數據
通過Drill查詢數據的幾種方式
其他操作接口
Drill SQL查詢格式
選擇數據源
定義工作區
指定默認數據源
在查詢中訪問列
帶錶頭並包含分隔符的數據
Table函數
查詢目錄中的數據
理解Drill的數據類型
使用字符串處理函數清洗和準備數據
複雜數據轉換函數
… …
第5章分析複合與嵌套數據
第6章把Drill連接到數據源
第7章連接Drill
第8章用Drill完成數據工程工作
第9章在生產環境部署Drill
第10章搭建開發環境
第11章編寫用戶自定義函數
第12章編寫格式插件
第13章特殊用法
附錄A Drill函數列表
附錄B Drill格式化字符串