Hive 實戰
[美] 斯科特·肖、[南非] 安德烈亞斯·弗朗索瓦·弗穆爾恩、[印] 安庫爾·古普塔(Ankur G
買這商品的人也買了...
-
無瑕的程式碼 - 敏捷軟體開發技巧守則 (Clean Code: A Handbook of Agile Software Craftsmanship)$580$452 -
$352Microsoft.NET 企業級應用架構設計, 2/e (Microsoft .NET - Architecting Applications for the Enterprise, 2/e) -
$280Modbus 軟件開發實戰指南 -
$270進化從孤膽極客到高效團隊 (Debugging Teams Better Productivity through Collaboration) -
為你自己學 Git$500$390 -
Impala 大數據查詢引擎 - Hadoop高手的最後一堂課$580$493 -
推薦系統實踐$419$398 -
重構 JavaScript (Refactoring JavaScript: Turning Bad Code Into Good Code)$680$537 -
$551Serverless 架構:無服務器應用與 AWS Lambda (Serverless Architectures on AWS: With examples using AWS Lambda) -
大數據時代的資料庫處理:Spark SQL親自動手做$580$493 -
$556大數據開發者權威教程 NoSQL Hadoop 組件及大數據實施 -
月亮般輕盈:用 Lua 成為指令稿語言大師$540$459 -
$469Spark 全棧數據分析 -
$222Hadoop 應用開發基礎 -
$474Nginx 實戰:基於 Lua 語言的配置、開發與架構詳解 -
Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)$480$379 -
唯一串流大數據處理平台 - Apache Kafka 動手做$580$493 -
$1,008Hadoop 專家:管理、調優與 Spark | YARN | HDFS 安全 -
持續 API 管理|在不斷演變的生態系統中做出正確決策 (Continuous API Management: Making the Right Decisions in an Evolving Landscape)$520$411 -
分散式系統設計 (Designing Distributed Systems: Patterns and Paradigms for Scalable, Reliable Services)$480$379 -
7天學會大數據資料處理 — NoSQL:MongoDB 入門與活用, 3/e$520$406 -
跟著實務學習 Bootstrap 4:第一次設計響應式網頁就上手$540$427 -
Vue.js 極巔實戰技術 高端設計範例完整笈典 (舊名: 前端設計範式三大天王之 Vue.js)$540$459 -
Laravel 5.7 實務專題範例教學:主流 PHP 開發框架入門$560$476 -
持續交付|使用 Java (Continuous Delivery in Java)$780$616
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
Hive“出身名門”,是最初由Facebook公司開發的數據倉庫工具。它簡單且容易上手,是深入學習Hadoop技術的一個很好的切入點。本書由數據庫專家和大數據專家共同撰寫,具體內容包括:Hive的安裝和配置,其核心組件和架構,Hive數據操作語言,如何加載、查詢和分析數據,Hive的性能調優以及安全性,等等。本書旨在為讀者打牢基礎,從而踏上專業的大數據處理之旅。
作者簡介
作者:[美]斯科特·肖(Scott Shaw)、[南非]安德烈亞斯·弗朗索瓦·弗穆爾恩(Andreas Fran?ois Vermeulen)、[印]安庫爾·古普塔(Ankur G譯者:唐富年
斯科特·肖(Scott Shaw)
Hortonworks公司解決方案工程師,曾為微軟公司的商業智能項目擔任顧問,擁有近20年的數據管理經驗。作為演講者和培訓師,他致力於普及分佈式計算、大數據概念、商業智能、Hive和Hadoop。
安德烈亞斯·弗朗索瓦·弗穆爾恩(Andreas Fran?ois Vermeulen)
集數據科學家、數據倉庫架構師、博士研究員、企業顧問等角色於一身,曾獲“英國數據科學技術先鋒”稱號,廣泛涉足數據工程、商業智能、雲架構、深度學習等多個領域。
安庫爾·古普塔(Ankur Gupta)
Hortonworks公司解決方案工程師,曾在Oracle公司擔任顧問,有多年從事數據架構師和Oracle數據庫管理員的經驗,著有Oracle GoldenGate 11g Complete Cookbook。
戴維·傑魯姆加德(David Kjerrumgaard)
Streamlio公司解決方案架構主管,曾是Hortonworks公司的系統架構師和數據流實踐主管,擁有Certified Developer for Apache Hadoop認證,精通Hive、Kafka、Spark、Storm等技術。
目錄大綱
第1章為Hive打好基礎:Hadoop 1
1.1一隻小像出生了2
1.2 Hadoop的結構3
1.3數據冗餘6
1.3.1傳統的高可用性6
1.3.2 Hadoop的高可用性9
1.4 MapReduce處理12
1.4 .1超越MapReduce 16
1.4.2 YARN和現代數據架構17
1.4.3 Hadoop和開源社區19
1.4.4我們身在何處22
第2章Hive簡介24
2.1 Hadoop發行版25
2.2集群架構27
2.3 Hive的安裝30
2.4探尋你的方式32
2.5 Hive CLI 35
第3章Hive架構37
3.1 Hive組件37
3.2 HCatalog 38
3.3 HiveServer2 40
3.4客戶端工具42
3.5執行引擎:Tez 46
第4章Hive表DDL 48
4.1 schema-on- read 48
4.2 Hive數據模型49
4.2.1模式/數據庫49
4.2.2為什麼使用多個模式/數據庫49
4.2.3創建數據庫49
4.2.4更改數據庫50
4.2.5刪除數據庫50
4.2.6列出數據庫51
4.3 Hive中的數據類型51
4.3.1基本數據類型51
4.3.2選擇數據類型51
4.3.3複雜數據類型52
4.4表53
4.4.1創建表53
4.4.2列出表54
4.4.3內部表/外部表54
4.4.4內部表/受控表55
4.4.5內部表/外部表示例55
4.4. 6表的屬性59
4.4.7生成已有表的CREATE TABLE命令60
4.4.8分區和分桶61
4.4.9分區註意事項63
4.4.10對日期列進行高效分區63
4.4.11分桶的註意事項65
4.4.12更改表66
4.4.13 ORC文件格式67
4.4.14更改表分區68
4.4.15修改列72
4.4.16刪除表/分區72
4.4.17保護表/分區73
4.4.18其他CREATE TABLE命令選項73
第5章數據操作語言75
5.1將數據裝載到表中75
5.1.1使用存儲在HDFS中的文件裝載數據75
5.1.2使用查詢裝載數據77
5.1.3將查詢到的數據寫入文件系統80
5.1.4直接向表插入值81
5.1.5直接更新表中數據83
5.1.6在表中直接刪除數據84
5.1.7創建結構相同的表85
5.2連接86
5.2.1使用等值連接來整合表86
5.2.2使用外連接87
5.2.3使用左半連接89
5.2.4用單次MapReduce實現連接90
5.2.5最後使用最大的表91
5.2.6事務處理92
5.2.7 ACID是什麼,以及為什麼要用到它92
5.2.8 Hive配置92
第6章將數據裝載到Hive 94
6.1裝載數據之前的設計註意事項94
6.2將數據裝載到HDFS 95
6.2.1 Ambari文件視圖95
6.2.2 Hadoop命令行97
6.2.3 HDFS的NFS Gateway 97
6.2.4 Sqoop 98
6.2.5 Apache NiFi 101
6.3用Hive訪問數據105
6.3.1外部表105
6.3.2 LOAD DATA語句106
6.4在Hive中裝載增量變更數據107
6.5 Hive流處理107
6.6小結108
第7章查詢半結構化數據109
7.1點擊流數據111
7.1.1攝取數據113
7.1.2創建模式116
7.1.3裝載數據116
7.1.4查詢數據116
7.2攝取JSON數據119
7.2.1使用UDF查詢JSON 121
7.2.2使用SerDe訪問JSON 122
第8章Hive分析125
8.1構建分析模型125
8.1.1使用太陽模型獲取需求125
8.1.2將太陽模型轉換為星型模式129
8.1.3構建數據倉庫137
8.2評估分析模型. 140
8.2.1評估太陽模型140
8.2.2評估聚合結果142
8.2.3評估數據集市143
8.3掌握數據倉庫管理144
8.3.1必備條件144
8.3.2檢索數據庫144
8.3.3評估數據庫147
8.3.4過程數據庫160
8.3.5轉換數據庫185
8.3.6你掌握了什麼192
8.3.7組織數據庫192
8.3.8報表數據庫196
8.3.9示例報表197
8.4高級分析199
8.5接下來學什麼199
第9章Hive性能調優200
9.1 Hive性能檢查表200
9.2執行引擎201
9.2.1 MapReduce 201
9.2.2 Tez 201
9.3存儲格式203
9.3.1 ORC格式203
9.3.2 Parquet格式205
9.4矢量化查詢執行206
9.5查詢執行計劃206
9.5.1基於代價的優化208
9.5.2執行計劃210
9.5.3性能檢查表小結212
第10章Hive的安全性213
10.1數據安全性的幾個方面213
10.1.1身份認證214
10.1.2授權214
10.1.3管理214
10.1.4審計214
10.1.5數據保護214
10.2 Hadoop的安全性215
10.3 Hive的安全性215
10.3.1默認授權模式215
10.3.2基於存儲的授權模式216
10.3.3基於SQL標準的授權模式217
10.3.4管理通過SQL進行的訪問218
10.4使用Ranger進行Hive授權219
10.4.1訪問Ranger用戶界面220
10.4.2創建Ranger策略220
10.4.3使用Ranger審計222
第11章Hive的未來224
11.1 LLAP 224
11.2 Hive-on-Spark 225
11.3 Hive:ACID和MERGE 225
11.4可調隔離等級225
11.5 ROLAP/基於立方體的分析226
11.6 HiveServer2的發展226
11.7面向不同工作負載的多個HiveServer2實例226
附錄A建立大數據團隊227
附錄B Hive函數231

