數據清洗, 2/e
黑馬程序員
- 出版商: 清華大學
- 出版日期: 2024-08-01
- 定價: $348
- 售價: 8.5 折 $296 (限時優惠至 2025-12-31)
- 語言: 簡體中文
- 頁數: 320
- ISBN: 7302670293
- ISBN-13: 9787302670292
-
相關分類:
Data-mining
立即出貨
買這商品的人也買了...
-
Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)$480$379 -
機器學習工程師面試全破解:嚴選 124道 AI 演算法決勝題完整剖析$650$507 -
極詳細 + 超深入:最新版 TensorFlow 1.x/2.x 完整工程實作$1,200$948 -
特徵工程不再難:資料科學新手也能輕鬆搞定! (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)$520$406 -
$354混沌工程實戰 手把手教你實現系統穩定性 -
$265大數據爬取、清洗與可視化教程 -
$245數據清洗與 ETL 技術 -
Python 數據清洗$714$678 -
嵌入式軟件自動化測試$414$393 -
使用 GitOps 實現 Kubernetes 的持續部署:模式、流程及工具$714$678 -
機器學習項目交付實戰$768$730 -
Docker 與 Kubernetes 容器運維實戰$479$455 -
Hugging Face 模型及資料大公開 - 利用 BERT 建立全中文 NLP 應用$720$569 -
精通機器學習|使用 Scikit-Learn , Keras 與 TensorFlow, 3/e (Hands-On Machine Learning with Scikit-Learn, Keras, and Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems, 3/e)$1,200$948 -
Python 服務端測試開發實戰$539$512 -
數據中臺:讓數據用起來第2版$774$735 -
寫程式前的必學工具:命令列、編輯器、Git/GitHub,軟體開發三本柱一次搞定$490$387 -
現代軟件測試技術之美$539$512 -
加速:高效能軟件交付之道$654$621 -
一本書講透命令行工具、文本編輯器和 GIT$534$507 -
$454Spark SQL 大數據分析快速上手 -
$407大模型測試技術與實踐 -
AI 超神筆記術:NotebookLM 高效資料整理與分析 250技$480$360 -
大模型 RAG 應用開發:構建智能生成系統$594$564 -
Raspberry Pi 5 + AI 創新實踐:電腦視覺與人工智慧應用指南$680$530
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
"本書以Kettle 9.2為基礎,全面介紹使用Kettle實現ETL的相關操作。全書共8章,分別講解數據清洗和ETL的概念,Kettle的安裝和使用,如何使用Kettle實現數據抽取、數據清洗、數據轉換和數據加載,並在最後綜合運用上述知識,構建一個電影租賃商店數據倉庫,以使讀者加深對Kettle和ETL的理解與掌握。 本書附有配套視頻、教學PPT、教學設計、測試題等資源,同時,為了幫助初學者更好地學習本書中的內容,還提供了在線答疑,歡迎讀者關註。 本書可以作為高等院校數據科學與大數據技術及相關專業的教材,也適合大數據開發初學者、ETL工程師以及數倉開發的從業者閱讀。 "
目錄大綱
目錄
第1章數據清洗概述1
1.1數據清洗的背景1
1.1.1數據質量概述1
1.1.2數據質量的評價指標2
1.1.3數據質量問題的分類3
1.2數據清洗的定義5
1.3數據清洗基本流程6
1.4數據清洗策略6
1.5數據清洗常用的方法7
1.6數據清洗面臨的挑戰9
1.7本章小結10
1.8課後習題10
第2章初識ETL12
2.1ETL的定義12
2.2ETL的體系結構13
2.3ETL關鍵步驟13
2.3.1抽取14
2.3.2轉換15
2.3.3加載15
2.4常見的ETL工具16
2.5本章小結17
2.6課後習題17
第3章Kettle19
3.1初識Kettle19
3.1.1Kettle簡介19
3.1.2Kettle的特點20
3.2Kettle的安裝與啟動20
3.3Kettle的轉換和作業23
3.3.1轉換23
3.3.2作業25
3.4Kettle的基本操作27
3.4.1轉換管理27
3.4.2作業管理39
3.4.3數據庫連接50
3.5本章小結55
3.6課後習題56
目錄數據清洗(第2版)第4章數據抽取57
4.1從文件中抽取數據57
4.1.1從CSV文件中抽取數據57
4.1.2從TSV文件中抽取數據61
4.1.3從JSON文件中抽取數據65
4.1.4從XML文件中抽取數據70
4.1.5從HDFS中抽取數據75
4.2從數據庫中抽取數據84
4.2.1從關系數據庫中抽取數據84
4.2.2從非關系數據庫中抽取數據87
4.3從Hive中抽取數據93
4.4從HTML頁面中抽取數據98
4.5本章小結105
4.6課後習題105
第5章數據清洗107
5.1重復值處理107
5.2缺失值處理112
5.2.1缺失值處理策略112
5.2.2刪除缺失值113
5.2.3填補缺失值117
5.3異常值處理123
5.3.1刪除異常值124
5.3.2替換異常值134
5.4本章小結141
5.5課後習題141
第6章數據轉換142
6.1數據規範化處理142
6.1.1數據規範化處理概述142
6.1.2數據規範化處理過程144
6.2多數據源合並149
6.2.1多數據源合並方法149
6.2.2多數據源合並過程150
6.3數據粒度轉換160
6.4數據的商務規則計算169
6.5本章小結176
6.6課後習題177
第7章數據加載178
7.1將數據加載到文本文件178
7.2將數據加載到數據庫188
7.2.1將數據加載到關系數據庫188
7.2.2將數據加載到非關系數據庫196
7.3將數據加載到Hive201
7.4本章小結211
7.5課後習題212
第8章綜合案例——構建電影租賃商店數據倉庫213
8.1案例概述213
8.1.1案例背景介紹213
8.1.2數據庫簡介213
8.1.3數據倉庫簡介219
8.2環境準備226
8.3案例實現231
8.3.1向維度表dim_date加載數據231
8.3.2向維度表dim_time加載數據240
8.3.3向維度表dim_staff加載數據247
8.3.4向維度表dim_customer加載數據253
8.3.5向維度表dim_store加載數據264
8.3.6向維度表dim_actor加載數據268
8.3.7向維度表dim_film加載數據272
8.3.8向橋接表dim_film_actor_bridge加載數據282
8.3.9向事實表fact_rental加載數據289
8.3.10定期向數據倉庫sakila_dwh加載數據301
8.4本章小結307



