數據清洗與 ETL 技術
馮廣、龔旭輝、周瀚章、李嘉、徐啟東、曾虎、孔立斌、石鳴鳴
- 出版商: 清華大學
- 出版日期: 2022-04-01
- 定價: $288
- 售價: 8.5 折 $245
- 語言: 簡體中文
- 頁數: 215
- ISBN: 7302600813
- ISBN-13: 9787302600817
-
相關分類:
大數據 Big-data
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
資料庫原理與設計 (Modern Database Management, Brief Edition)$400$380 -
$414數據倉庫, 4/e (Building the Data Warehouse, 4/e) -
SQL 必知必會, 5/e (Sams Teach Yourself SQL in 10 Minutes a Day, 5/e)$294$279 -
Power Query 數據清洗實戰$414$393 -
ETL 數據整合與處理 (Kettle)$299$284 -
$265大數據爬取、清洗與可視化教程 -
$449華為數字化轉型 : 企業持續有效增長的新引擎 -
$653大數據採集與處理 -
$659機器學習流水線實戰 -
$403Elasticsearch 全面解析與實踐 -
SCRUM BOOT CAMP|23場工作現場的敏捷實戰演練$500$395 -
$352Android 移動安全攻防實戰 (微課視頻版) -
$658華為數字化轉型之道 -
軟體架構師全方位提升指南|數位轉型企業中架構師角色的新定義 (The Software Architect Elevator: Redefining the Architect's Role in the Digital Enterprise)$580$458 -
Python 數據清洗$714$678 -
Agile Retrospectives 中文版:這樣打造敏捷回顧會議,讓團隊從優秀邁向卓越 (Agile Retrospectives: Making Good Teams Great)$500$390 -
軟體專案估算$620$484 -
AI策略|人與企業的數位轉型 (AI for People and Business: A Framework for Better Human Experiences and Business Success)$400$316 -
數據長與數據驅動型組織:擁抱大數據時代的衝擊$450$405 -
Google 的軟體工程之道|從程式設計經驗中吸取教訓 (Software Engineering at Google)$880$695 -
Apache Airflow 數據編排實戰$768$730 -
Kafka 實戰$539$512 -
Terraform 建置與執行, 3/e (Terraform: Up and Running: Writing Infrastructure as Code, 3/e)$780$616 -
AI 神助攻!程式設計新境界 – GitHub Copilot 開發 Python 如虎添翼 : 提示工程、問題分解、測試案例、除錯$560$442 -
$296數據清洗, 2/e
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書為大數據時代下的產物,由淺入深地介紹大數據及其相關知識,在大數據的背景下著重介紹ETL數據處理技術,同時引入數據清洗的知識,理論與實際相結合,突出所長。在理論上,本書突出重點與難點,較為系統地介紹大數據的各項基本技術。在實踐操作上,本書貼近生活,切實理解,緊跟實驗進行,並從中萃取精華。同時本書還介紹ETL技術的主流工具,結合當下一些項目進行運用,並綜合課後思考題,使讀者在學習中體會大數據的樂趣,翺遊在大數據的海洋中。 本書可作為高校新興專業——數據科學專業的配套教材,也可作為其他專業的選修課教材,還可作為初學者的學習教程。
目錄大綱
目錄
第1章從大數據到ETL1
1.1大數據概述1
1.1.1大數據的定義2
1.1.2大數據的基本性質2
1.1.3大數據的影響4
1.1.4大數據帶來的挑戰7
1.2科學處理數據9
1.3ETL簡介10
1.3.1ETL的基本定義10
1.3.2ETL的基本過程11
1.3.3ETL的架構體系11
1.3.4ETL的必要性13
1.3.5ETL的分類14
1.3.6基本ETL過程與數據清理的區別14
1.3.7ETL現狀與發展15
1.4數據抽取16
1.4.1數據抽取的概念16
1.4.2分類抽取16
1.4.3數據抽取的原則和方法17
1.5數據轉換17
1.5.1數據轉換的概念17
1.5.2類型轉換17
1.6數據加載18
1.6.1數據加載的概念18
1.6.2數據加載方式18
1.7實驗任務——處理論文的年份19
1.8小結23
1.9習題23第2章數據抽取25
2.1數據源25
2.1.1關系數據庫25
2.1.2非關系數據庫27
2.1.3通用程序庫28
2.2數據抽取方式29
2.2.1全量抽取29
2.2.2增量抽取29
2.2.3增量抽取的比較分析30
2.3Hadoop的數據抽取32
2.3.1Hadoop簡介32
2.3.2Hadoop研究現狀32
2.3.3環境搭建34
2.3.4數據採集34
2.4Web文件的數據抽取35
2.4.1Web文件簡介35
2.4.2主要工作35
2.4.3主要工具——Connotate35
2.4.4應用分析——基於頁面標簽的Web結構化數據抽取37
2.5數據庫的數據抽取41
2.5.1數據庫簡介41
2.5.2主要應用——基於ETL工具軟件的數據抽取43
2.6文本文件的數據抽取44
2.6.1文本文件數據抽取及應用領域44
2.6.2網絡爬蟲44
2.7實驗任務——MySQL環境搭建及數據抽取46
2.7.1MySQL在Windows下的搭建46
2.7.2MySQL在Linux下的搭建47
2.7.3案例分析50
2.8小結54
2.9習題54第3章數據轉換56
3.1數據轉換56
3.1.1數據轉換的概念56
3.1.2數據轉換的標準57
3.1.3數據轉換的方法57
3.1.4數據之間的關聯58
3.2數據清洗59
3.2.1數據清洗的主要內容59
3.2.2數據清洗研究現狀60
3.2.3數據清洗的必要性61
3.2.4數據清洗的問題61
3.2.5數據清洗對工具的要求62
3.2.6數據清洗的流程62
3.2.7數據清洗的原理63
3.2.8數據清洗的方法63
3.3Python下的數據清洗65
3.3.1Python概述65
3.3.2Python的特點66
3.3.3Python Pandas——數據清洗67
3.4數據轉換工具75
3.4.1Data Stage75
3.4.2Kettle78
3.4.3Informatica PowerCenter81
3.4.4ETL Automation82
3.4.5SSIS82
3.4.6幾種工具之間的比較83
3.5實驗任務——Kettle的分類安裝及案例分析84
3.5.1Kettle的分類安裝84
3.5.2案例分析——利用Kettle處理錯誤代碼行84
3.6小結87
3.7習題87第4章數據加載89
4.1數據加載89
4.1.1數據加載的概念89
4.1.2數據加載機制89
4.2數據加載技術90
4.2.1加載技術90
4.2.2全量數據加載流程91
4.3數據倉庫93
4.3.1數據倉庫基本內容94
4.3.2數據倉庫架構97
4.3.3數據倉庫設計98
4.3.4數據倉庫的規劃和需求分析99
4.3.5數據倉庫的建模100
4.3.6數據倉庫的物理模型分析107
4.3.7數據倉庫的物理模型設計109
4.4加載SQL123
4.4.1SQL的基本內容123
4.4.2MySQL集群體125
4.5加載MyCat128
4.5.1MyCat簡介128
4.5.2MyCat的關鍵特性128
4.5.3拓撲結構129
4.5.4MyCat的功能描述129
4.5.5MyCat下載安裝132
4.6加載數據流134
4.6.1流概述134
4.6.2數據流的基本性質135
4.6.3數據流的基本操作136
4.6.4數據流的描述方法137
4.7小結138
4.8習題138第5章大數據ETL實現139
5.1Spark的分佈式ETL實現139
5.1.1Spark概述140
5.1.2Spark數據模型——RDD140
5.1.3Spark的安裝配置141
5.1.4分佈式ETL總體架構143
5.1.5分佈式轉換引擎的實現144
5.1.6SparkStreaming的實時同步實現147
5.2Spark完成在ETL時的相關技術148
5.2.1SparkApplication提交邏輯分析149
5.2.2Spark交互模式150
5.2.3使用Spark實現ETL151
5.2.4小結151
5.3Hive的ETL實現152
5.3.1Hive簡介152
5.3.2Hadoop偽分佈式集群搭建152
5.3.3Hive的安裝配置156
5.3.4Hive的基本操作158
5.4Sqoop的ETL實現169
5.4.1Sqoop簡介169
5.4.2Sqoop的安裝部署169
5.4.3Sqoop的常用命令170
5.4.4案例分析——利用Sqoop進行ETL操作173
5.5小結176
5.6習題176第6章案例分析177
6.1校園大數據建設177
6.1.1校園大數據建設背景177
6.1.2校園大數據檢索需求178
6.1.3總體目標178
6.1.4建設內容179
6.1.5數據抽取180
6.1.6數據轉換180
6.1.7數據倉庫的建設182
6.1.8項目效益184
6.2反洗錢系統中的ETL應用185
6.2.1反洗錢簡介185
6.2.2反洗錢系統中ETL的重要性185
6.2.3反洗錢系統中的ETL設計186
6.3電信行業中的ETL應用190
6.3.1背景知識190
6.3.2設計目的191
6.3.3ETL架構設計191
6.3.4ETL接口設計193
6.3.5控制實現195
6.4雲計算下的ETL設計198
6.4.1雲計算簡介198
6.4.2傳統數據倉庫ETL面臨的困境198
6.4.3ETL系統設計199
6.4.4ETL工作流199
6.5BI項目中的ETL應用201
6.5.1BI概述201
6.5.2ETL功能架構202
6.5.3ETL數據流202
6.5.4ETL作業調度205
6.5.5ETL監控和日誌207
6.5.6數據質量檢測209
6.5.7BI項目中的ETL實現210
6.6小結215
6.7習題215參考文獻216



