數據採集與預處理
林子雨
- 出版商: 人民郵電
- 出版日期: 2022-02-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 250
- ISBN: 7115580634
- ISBN-13: 9787115580634
-
相關分類:
大數據 Big-data
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$192分層無線傳感器網絡關鍵技術 -
$408無線傳感器網絡--原理設計和應用 -
$3596LoWPAN:無線嵌入式物聯網 -
Low-cost Smart Antennas (Hardcover)$1,560$1,529 -
$403德國工業4.0大全 -- 第1捲:智能生產技術 -
生成深度學習|訓練機器繪畫、作曲、寫作與玩遊戲 (Generative Deep Learning)$580$458 -
基於多域融合的複合維度通信關鍵技術$768$730 -
$232機器人傳感器及其信息融合技術 -
$469對抗機器學習 -
$236無線傳感器網絡技術與應用(第2版) -
高精度 GNSS\INS 組合定位及測姿技術$648$616 -
AI 硬體專屬晶片:最新技術未來創新發展$1,000$790 -
$658一本書講透數據治理:戰略、方法、工具與實踐 -
$796複雜環境下語音信號處理的深度學習方法 -
雷達通信一體化系統射頻隱身技術$474$450 -
基於頻譜數據分析的電磁行為識別和網絡結構挖掘$474$450 -
$322機器人感知系統設計及應用 -
$947面向6G的可見光通信關鍵技術 -
生成式人工智慧:AIGC 的邏輯與應用$520$442 -
$454先進傳感器:原理、技術與應用 -
$806智能傳感器系統(第三版) -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748 -
邊緣AI|使用嵌入式機器學習解決真實世界的問題 (AI at the Edge: Solving Real-World Problems with Embedded Machine Learning)$880$695 -
$449智能傳感與檢測技術 -
電磁頻譜監測$594$564
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書詳細闡述了大數據領域數據採集與預處理的相關理論和技術。全書共8章,內容包括概述、大數據實驗環境搭建、網絡數據採集、分佈式消息系統Kafka、日誌採集系統Flume、數據倉庫中的數據集成、ETL工具Kettle、使用pandas進行數據清洗。本書在第3章至第8章中安排了豐富的實踐操作,以便讀者更好地學習和掌握數據採集與預處理的關鍵技術。 本書可以作為高等院校大數據專業的大數據課程教材,也可供相關技術人員參考。
作者簡介
林子雨 博士,國內高校大數據教師,廈門大學電腦科學系副教授,廈門大學信息學院實驗教學中心主任,廈門大學數據庫實驗室負責人,中國高校“數字教師”提出者和建設者。2013年開始在廈門大學開設大數據課程,建設了國內高校大數據課程公共服務平臺,平臺累計網絡訪問量超過1000萬次,成為全國高校大數據教學品牌,並榮獲“2018年福建省教學成果二等獎”和“2018年廈門大學教學成果特等獎”,主持的課程“大數據技術原理與應用”獲評“2018年國家精品在線開放課程”和“2020年國家級線上一流本科課程”。
目錄大綱
第 1 章概述.
1.1 數據
1.1.1 數據的概念.
1.1.2 數據類型
1.1.3 數據的組織形式.
1.1.4 數據的價值
1.1.5 數據爆炸.
1.2 數據分析過程.
1.3 數據採集與預處理的任務
1.4 數據採集
1.4.1 數據採集的概念
1.4.2 數據採集的三大要點
1.4.3 數據採集的數據源.
1.4.4 數據採集方法.
1.5 數據清洗
1.5.1 數據清洗的應用領域
1.5.2 數據清洗的實現方式.
1.5.3 數據清洗的內容.
1.5.4 數據清洗的註意事項
1.5.5 數據清洗的基本.流.程.
1.5.6 數據清洗的評價標.
1.6 數據集成.
1.7 數據轉換.
1.7.1 數據轉換策略.
1.7.2 平滑處理
1.7.3 規範化處理.
1.8 數據脫敏.
1.8.1 數據脫敏原則.
1.8.2 數據脫敏方法.
1.9 本章小結.
1.10 習題
第 2 章 大數據實驗環境搭建.
2.1 Python 的安裝和使用.
2.1.1 Python 簡介
2.1.2 Python 的安裝
2.1.3 Python 的基本使用方法
2.1.4 Python 基礎語法知識
2.1.5 Python 第三方模塊的安裝。
2.2 JDK 的安裝.
2.3 MySQL 數據庫的安裝和使用
2.3.1 關系數據庫
2.3.2 關系數據庫標準語言SQL
2.3.3 安裝MySQL
2.3.4 MySQL 數據庫的使用方法
2.3.5 使用 Ppython操作MySQL數據庫
2.4 Hadoop的安裝和使用
2.4.1 Hadoop簡介
2.4.2分佈式系統HDFS
2.4.3 Hadoop安裝
2.4.4 Hadoop的基本使用方法
第 3 章網絡數據採集.
3.1 網絡爬蟲概述.
3.1.1 什麼是網絡爬蟲
3.1.2網絡爬蟲的類型
3.1.3反爬機制
3.2 網頁基礎知識
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 實現HTTP請求
3.3.1 urllib模塊
3.3.2 urllib3 模塊.
3.3.3 requests 模塊.
3.4 定製 request.s.
3.4.1 傳遞 URL參數,
3.4.2 定製請求頭,
3.4.3 網絡超時
3.5 解析網頁
3.5.1 BeautifulSoup 簡介.
3.5.2 BeautifulSoup 四大對象
3.5.3 遍歷文件樹
3.5.4 搜索文檔樹
3.5.5 CSS選擇器
3.6 綜合實例
實例1:採集網頁數據保存到文本
實例2:採集網頁數據保存到MYSQL數據庫
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 語言
3.7.3 Scrapy 框架應用實例,
3.8 本章小結
3.9 習題.
實驗 2 網絡爬蟲初級實踐
第 4 章分佈式消息系統 afu.a .
4.1 Kafka 簡介
4.1.1 Kafk的特性
4.1.2 Kafka 的應用場景.
4.1.3 Kafka 的消息傳遞模式….
4.2 Kafka 在大數據生態系統中的作-用
4.3 Kafka 與 Flume 的區別與聯
4.4 Kafka 相關概念
4.5 Kafka 的安裝和使用
4.5.1 安裝Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 與 MysQL 的組合使用,
4.8 本章小結
4.9 習題
實驗 3 熟悉 Kafka 的基本使用方法
第 5 章日誌採集統Flume
5.1 Flume 簡介.
5.2 Flume 的安裝和使用
5.2.1 Flume 的安裝.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的組合使用.
5.4 採集日誌文件到 HDFS.
5.4.1 採集目錄到 HDFS
5.4.2 採集文件到 HDFS.
5.5 採集 MySQL 數據到 HDFS
5.5.1 準備工作
5.5.2 創建 MysQL 數據庫.
5.6 本章小結.
5.7 習題
實驗 4熟悉 Flume 的基本使用方法
第 6 章 數據倉庫中的數據集成
6.1數據倉庫的概念
6.1.1傳統的數據倉庫
6.1.2 實時主動數據倉庫
6.2 數據集成
6.2.1 數據集成方式
6.2.2 數據分發方式
6.2.3 數據集成技術
6.3 ETL.
6.3.1 ETL 簡介.
6.3.2 ETL基本模塊
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的組成
6.4.3 CDC 的應用場景
6.4.4 CDC 需要考慮的問題
6.5 本章小結
6.6 習題
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念!
7.2 Kettle 的基本功能
7.3 安裝 Kettle. .
7.4 數據抽取
7.4.1 把文本文件導入Excel 文件
7.4.2 把文本文件導入 MySQL 數據庫
7.4.3 把 Excel 文件導入MySQL數據庫
7.5 數據清洗與轉換
7.5.1 使用 Kettle 實現數據排序
7.5.2 在 Kettle 中用正則表達式清洗數據
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 轉化 MySQL 數據庫中的數據
7.6 數據加載
7.6.1 把本地文件加載到 HDFS 中
7.6.2 把 HDFS 文件加載到 MySQL 數庫
7.7 本章.小結.
7.8 習題
實驗 5 熟悉 Kettle 的基本使用方法
第 8 章 使用 pandas 進行數據清洗
8.1 NumPy 的基本使用方法
8.1.1 數組創建
8.1.2數組索引和切片
8.1.3 數組運算
8.2 pandas的數據結構
8.2.2 Series
8.2.2 DataFrame
8.2.3索引對象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丟棄指定軸上的項
8.3.3 索引、選取和濾.
8.3.4 算術運算.
8.3.5 DataFrame 和 Series 之間的運算.
8.3.6 函數應用和映射
8.3.7 排序和排名
8.3.8 分組
8.3.9 shape函數
8.3.10 info()函數
8.3.11 cut()函數
8.4 匯總和描述統計
8.4.1 與描述統計相關的函數
8.4.2 唯一值、值計數以及成員資格,
8.5 處理缺失數據
8.5.1 檢查缺失值
8.5.2 清理/填充缺失值.
8.5.3 排除缺少的值
8.6 綜合實例
8.6.1 Matplotlib 的使用方法
8.6.2 實例 1:對一個數據集進行基本操作
8.6.3 實例 2:百度搜索指數分析
8.6.4 實例 3:電影評分數據分析
8.6.5 實例 4:App行為數據預處理
8.7 本章小結
8.8 習題
實驗6 pandas數據清洗初級實踐
參考文獻


