Python 和 Dask 數據科學
[美] 傑西·丹尼爾(Jesse C. Daniel)著 王穎、周致成、王龍江 譯 田禮悅 審校
- 出版商: 清華大學
- 出版日期: 2020-06-01
- 定價: $479
- 售價: 8.5 折 $407
- 語言: 簡體中文
- ISBN: 7302553785
- ISBN-13: 9787302553786
-
相關分類:
Python、Data Science、Python
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
大數據時代一定要會的 SQL 商業資料分析術$680$578 -
$237Python 深度學習:基於 TensorFlow -
中文自然語言處理實戰:聊天機器人與深度學習整合應用$450$351 -
$774AI 安全之對抗樣本入門 -
Pandas 資料分析實戰:使用 Python 進行高效能資料處理及分析 (Learning pandas : High-performance data manipulation and analysis in Python, 2/e)$580$452 -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
機器學習的數學基礎 : AI、深度學習打底必讀$580$458 -
特徵工程不再難:資料科學新手也能輕鬆搞定! (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)$520$406 -
CentOS Linux 8 實務管理應用$580$452 -
$403Django 項目開發實戰 -
架構模式|使用 Python (Architecture Patterns with Python: Enabling Test-Driven Development, Domain-Driven Design, and Event-Driven Microservices)$680$537 -
Python 非同步設計|使用 Asyncio (Using Asyncio in Python )$480$379 -
Python 深度學習異常檢測 : 使用 Keras 和 PyTorch$588$559 -
$374Python 機器學習建模與部署 -- 從 Keras到 Kubernetes (Keras to Kubernetes: The Journey of a Machine Learning Model to Production) -
高效能 Python 程式設計, 2/e (High Performance Python: Practical Performant Programming for Humans, 2/e)$780$616 -
$327基於 Python 的交互式數據可視化編程 (Interactive Data Visualization with Python) -
Kaggle 競賽攻頂秘笈 -- 揭開 Grandmaster 的特徵工程心法,掌握制勝的關鍵技術$1,000$850 -
$505深入大型數據集:並行與分佈化 Python 代碼 (Mastering Large Datasets: Parallelize and Distribute Your Python Code) -
$447Linux 設備驅動開發 -
機器學習設計模式 (Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and Mlops)$680$537 -
資料科學的建模基礎 : 別急著 coding!你知道模型的陷阱嗎?$599$539 -
$331集成學習入門與實戰:原理、算法與應用 -
從 Docker 動手邁入全新 DevOps 時代:最完整 Kubernetes 全書$1,280$1,011 -
$708Docker + Kubernetes 容器實戰派 -
極速 Python:高性能編碼、計算與數據分析$479$455
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
主要內容 ● 處理大型的結構化和非結構化數據集 ● 使用Seaborn和Datashader實現可視化 ● 實現自己的算法 ● 構建分佈式應用 ● 打包和部署Dask應用
目錄大綱
目 錄
第Ⅰ部分 可擴展計算的基礎
第1章 可擴展計算的重要性 3
1.1 Dask的優勢 4
1.2 有向無環圖 9
1.3 橫向擴展、並發和恢復 13
1.3.1 縱向擴展和橫向擴展 14
1.3.2 並發和資源管理 16
1.3.3 從失敗中恢復 17
1.4 本書使用的數據集 18
1.5 本章小結 19
第2章 Dask入門 21
2.1 DataFrame API初探 22
2.1.1 Dask對象的元數據 22
2.1.2 使用compute方法運行計算任務 25
2.1.3 使用persist簡化復雜計算 27
2.2 DAG的可視化 28
2.2.1 使用Dask延遲對象查看DAG 28
2.2.2 帶有循環和集合的復雜DAG的可視化 29
2.2.3 使用persist簡化DAG 32
2.3 任務調度 35
2.3.1 延遲計算 35
2.3.2 數據本地化 36
2.4 本章小結 38
第II部分 使用Dask DataFrame處理結構化數據
第3章 介紹Dask DataFrame 41
3.1 為什麼使用DataFrame 42
3.2 Dask和Pandas 43
3.2.1 管理DataFrame分區 45
3.2.2 “混洗”介紹 48
3.3 Dask DataFrame的局限性 49
3.4 本章小結 50
第4章 將數據讀入DataFrame 53
4.1 從文本文件讀取數據 54
4.1.1 Dask數據類型 59
4.1.2 為Dask DataFrame創建數據模式 61
4.2 從關系數據庫中讀取數據 65
4.3 從HDFS和S3中讀取數據 68
4.4 讀取Parquet格式的數據 72
4.5 本章小結 74
第5章 DataFrame的清理和轉換 75
5.1 使用索引和軸 77
5.1.1 從DataFrame中選擇列 77
5.1.2 從DataFrame中刪除列 79
5.1.3 DataFrame中列的重命名 81
5.1.4 從DataFrame中選擇行 81
5.2 處理缺失值 83
5.2.1 對DataFrame中的缺失值計數 83
5.2.2 刪除含有缺失值
的列 85
5.2.3 填充缺失值 85
5.2.4 刪除缺少數據的行 86
5.2.5 使用缺失值輸入多個列 87
5.3 數據重編碼 89
5.4 元素運算 93
5.5 過濾和重新索引DataFrame 95
5.6 DataFrame的連接 97
5.6.1 連接兩個DataFrame 98
5.6.2 合並兩個DataFrame 101
5.7 將數據寫入文本文件和Parquet文件 103
5.7.1 寫入含分隔符的文本文件 103
5.7.2 寫入Parquet 文件 104
5.8 本章小結 105
第6章 聚合和分析DataFrame 107
6.1 描述性統計信息 108
6.1.1 什麼是描述性統計信息 108
6.1.2 使用Dask計算描述性統計信息 110
6.1.3 使用describe方法進行描述性統計 114
6.2 內置的聚合函數 115
6.2.1 什麼是相關性 115
6.2.2 計算Dask DataFrame的相關性 117
6.3 自定義聚合函數 121
6.3.1 使用t檢驗測試分類變量 121
6.3.2 使用自定義聚合函數來實現Brown-Forsythe檢驗 123
6.4 滾動(窗口)功能 134
6.4.1 為滾動函數準備數據 135
6.4.2 將rolling方法應用到一個窗口函數 136
6.5 本章小結 137
第7章 使用Seaborn對DataFrame進行可視化 139
7.1 prepare-reduce-collect-plot模式 141
7.2 可視化散點圖與規則圖的延伸關系 143
7.2.1 使用Dask和Seaborn創建散點圖 143
7.2.2 在散點圖中添加線性回歸線 146
7.2.3 在散點圖中添加非線性回歸線 147
7.3 使用小提琴圖可視化分類關系 149
7.3.1 使用Dask和Seaborn創建小提琴圖 150
7.3.2 從Dask DataFrame隨機採樣數據 152
7.4 使用熱圖可視化兩個分類關系 154
7.5 本章小結 157
第8章 用Datashader對位置數據可視化 159
8.1 什麼是Datashader?它是如何工作的? 160
8.1.1 Datashader渲染流程的五個階段 161
8.1.2 使用Datashader進行可視化 165
8.2 將位置數據繪制為交互式熱圖 166
8.2.1 準備用於地圖平鋪的地理數據 166
8.2.2 創建交互式熱圖 167
8.3 本章小結 169
第III部分 擴展和部署Dask
第9章 使用Bag和Arrays 173
9.1 使用Bag讀取和解析非結構化數據 175
9.1.1 從Bag中選擇和查看數據 176
9.1.2 常見的解析錯誤和解決辦法 176
9.1.3 使用分隔符 177
9.2 轉換、過濾和合並元素 184
9.2.1 使用map函數轉換元素 184
9.2.2 使用filter函數過濾Bag 186
9.2.3 計算Bag的描述統計量 189
9.2.4 使用foldby方法創建聚合函數 190
9.3 從Bag中創建Arrays和DataFrame 192
9.4 使用Bag和NLTK進行並行文本分析 193
9.4.1 二元分析的基礎 194
9.4.2 提取token和過濾停頓詞 194
9.4.3 分析二元組 198
9.5 本章小結 200
第10章 使用Dask-ML進行機器學習 201
10.1 使用Dask-ML建立線性模型 202
10.1.1 準備二進制向量化數據 204
10.1.2 使用Dask-ML建立Logistic回歸模型 210
10.2 評估和調整Dask-ML模型 211
10.2.1 用計分法評估Dask-ML模型 211
10.2.2 使用Dask-ML構建樸貝葉斯分類器 212
10.2.3 自動調整超參數 213
10.3 持續的Dask-ML模型 215
10.4 本章小結 217
第11章 擴展和部署Dask 219
11.1 使用Docker在Amazon AWS上創建Dask集群 220
11.1.1 入門 221
11.1.2 生成安全密鑰 222
11.1.3 創建ECS集群 224
11.1.4 配置集群的網絡 227
11.1.5 在Elastic文件系統中創建共享數據驅動 231
11.1.6 在Elastic ContainerRepository中為Docker鏡像分配空間 236
11.1.7 為調度器、工作節點和Notebook創建和部署鏡像 237
11.1.8 連接到集群 244
11.2 在集群上運行和監視Dask作業 246
11.3 在AWS上清理Dask集群 250
11.4 本章小結 252
附錄A 軟件的安裝 253



