Python 數據預處理
黑馬程序員
買這商品的人也買了...
-
AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications)$474$450 -
亞馬遜 AWS 雲基礎與實戰$299$284 -
$352關聯數據:萬維網上的結構化數據 -
MIS 一定要懂的 82個網路技術知識$360$306 -
用 Python 寫網絡爬蟲, 2/e$294$279 -
$378JavaScript 實戰詳解 -
$768AWS 高級網絡官方學習指南 (專項領域) (AWS Certified Advanced Networking Official Study Guide: Specialty Exam) -
$199深度學習 -
$352RPA (流程自動化機器人) 入門 — 手把手教你應用 UiPath 自動化工作 -
強化式學習:打造最強 AlphaZero 通用演算法$780$663 -
深度強化式學習 (Deep Reinforcement Learning in Action)$1,000$850 -
$254文本數據挖掘與 Python 應用 -
$305機器學習入門與實戰 — 基於 scikit-learn 和 Keras -
$403速通機器學習 -
$356零起步玩轉 Mind + 創客教程 — 基於 micro:bit 開發板 -
$454Python 自動化辦公:3分鐘完成一天工作 -
$611深度強化學習:基礎、研究與應用 -
$505學 Python 不加班 -- 輕鬆實現辦公自動化 -
$352從零開始 機器學習的數學原理和算法實踐 -
$240用 Python 動手學統計學 -
$607Linux 命令行與 Shell 腳本編程 -
$417財務報表分析與商業決策 -
$473Jupyter 金融應用 從入門到實踐 -
機器學習的統計基礎 : 深度學習背後的核心技術$680$537 -
集成式學習:Python 實踐!整合全部技術,打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)$750$638
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
85折
$505GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
數據預處理是數據分析、數據挖掘或人工智能中必不可少的環節,它通過一定的方法將存在諸多問題的低質量數據處理變成高質量數據,在一定程度上提高數據分析或數據挖掘等工作的效率。
本書以Jupyter Notebook為主要開發工具,採用理論與實例相結合的形式,全面地介紹數據預處理的相關知識。全書共8章,其中第1章介紹數據預處理的入門知識;第2~6章介紹科學計算庫NumPy和數據分析庫pandas,以及通過pandas庫實現數據獲取、數據清理、數據集成、數據變換和數據規約的功能;第7章介紹數據清理工具OpenRefine的安裝及使用;第8章結合前期的核心知識進行實戰演練。除第1章外,其他章均配置了豐富的示例或案例,讀者可以一邊學習一邊練習,鞏固所學的知識,並在實踐中提升實際開發能力。
本書附有配套視頻、源代碼、習題、教學課件等資源。為幫助初學者更好地學習本書中的內容,本書還提供了在線答疑。
本書既可作為高等院校電腦相關專業的專用教材,也可以作為相關技術愛好者的入門用書。
作者簡介
黑馬程序員,傳智播客旗下高端教育品牌,成立於2006年,它是由中國Java培訓先行者張孝祥老師發起,聯合***大的中文IT社區CSDN、中關村軟件園共同創辦的一家專業教育機構。
辦學至今,我們一直堅守著“為千萬人少走彎路而著書,為中華軟件之崛起而講課”的辦學理念,堅持培養優秀軟件應用工程師的宏偉目標,在累計培養的十萬餘名學員中。
目錄大綱
第1章數據預處理概述001
1.1什麼是數據預處理001
1.2常見的數據問題003
1.3數據預處理的流程003
1.4常用的數據預處理庫005
1.5開發工具與環境006
1.5.1安裝與使用Jupyter Notebook 006
1.5.2安裝數據預處理庫008
1.6本章小結009
1.7習題009
第2章科學計算庫——NumPy 010
2.1數組對象010
2.2創建數組012
2.3訪問數組元素014
2.3.1使用整數索引訪問元素014
2.3.2使用花式索引或布爾索引訪問元素015
2.3.3使用切片訪問元素017
2.4數組運算018
2.4.1形狀相同的數組間運算018
2.4.2形狀不同的數組間運算019
2.4.3數組與標量的運算020
2.5數組操作021
2.5 .1排序021
2.5.2檢索數組元素022
2.5.3元素唯一化022
2.6數組的轉置023
2.7本章小結025
2.8習題025
第3章pandas庫基礎028
3.1數據結構028
3.1.1 Series 028
3.1.2 DataFrame 030
3.2索引操作032
3.2.1索引對象032
3.2.2使用單層索引訪問數據033
3.2.3使用分層索引訪問數據035
3.2.4重新索引038
3.3數據排序039
3.3.1按索引排序040
3.3.2按值排序041
3.4統計計算與統計描述042
3.4.1統計計算042
3.4.2統計描述043
3.5繪製圖表044
3.6本章小結046
3.7習題046
第4章數據獲取048
4.1從CSV和TXT文件讀取數據048
4.2從Excel文件讀取數據050
4.3從JSON文件讀取數據052
4.4從HTML表格讀取數據053
4.5從數據庫讀取數據054
4.6從Word文件讀取數據056
4.6.1 python-docx庫概述056
4.6.2 python-docx庫的基本使用057
4.7從PDF文件讀取數據059
4.7.1 pdfplumber庫概述059
4.7.2 pdfplumber庫的基本使用060
4.8本章小結061
4.9習題062
第5章數據清理064
5.1數據清理概述064
5.2缺失值的檢測與處理065
5.2.1缺失值的檢測065
5.2.2缺失值的處理066
5.3重複值的檢測與處理070
5.3.1重複值的檢測070
5.3.2重複值的處理071
5.4異常值的檢測與處理072
5.4.1異常值的檢測072
5.4.2異常值的處理076
5.5案例——成都某地區二手房數據清理078
【分析目標】 078
【數據獲取】 078
【數據清理】 079
5.6本章小結083
5.7習題083
第6章數據集成、變換與規約086
6.1數據集成086
6.1.1數據集成概述086
6 .1.2合併數據087
6.2數據變換093
6.2.1數據變換概述093
6.2.2軸向旋轉094
6.2.3分組與聚合095
6.2.4啞變量處理100
6.2.5面元劃分102
6.3數據規約104
6.3.1數據規約概述104
6.3.2重塑分層索引105
6.3.3降採樣106
6.4案例——中國籃球運動員的基本信息分析108
【分析目標】 108
【數據獲取】 108
【數據清理】 109
【實現步驟】 116
6.5本章小結119
6.6習題119
第7章數據清理工具—— OpenRefine 122
7.1 OpenRefine介紹122
7.2 OpenRefine的下載與安裝123
7.3 OpenRefine的基本操作124
7.3.1基本配置125
7.3.2創建項目126
7.3. 3操作列127
7.3.4撤銷與重做132
7.3.5導出數據133
7.4 OpenRefine的進階操作135
7.4.1數據排序135
7.4.2數據歸類137
7. 4.3重複檢測138
7.4.4數據填充141
7.4.5文本過濾142
7.4.6數據轉換143
7.5案例——多倫多市建築許可數據分析145
【分析目標】 145
【數據獲取】 145
【數據清理】 146
【實現步驟】 152
7.6本章小結153
7.7習題154
第8章實戰演練— —數據分析師崗位分析156
8.1知識精講156
8.1.1數據分析的流程156
8.1.2使用pyecharts繪製圖表157
8.2分析目標與思路160
8.3數據收集161
8. 4數據預處理163
8.5數據分析與展現166
8.5.1分析展現數據分析師崗位的需求趨勢166
8.5.2分析展現數據分析師崗位的熱門城市Top10 167
8.5.3分析展現不同城市數據分析師崗位的薪資水平169
8.5.4分析展現數據分析師崗位的學歷要求171
8.6本章小結172


