數據預處理從入門到實戰 基於 SQL、R、Python
[日]本橋智光
- 出版商: 人民郵電
- 出版日期: 2021-02-01
- 定價: $534
- 售價: 8.5 折 $454
- 語言: 簡體中文
- 頁數: 253
- 裝訂: 平裝
- ISBN: 7115552320
- ISBN-13: 9787115552327
-
相關分類:
Data-mining
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
第一次用 Docker 就上手$420$332 -
$403AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications) -
$254亞馬遜 AWS 雲基礎與實戰 -
演算法圖鑑:26種演算法 + 7種資料結構,人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解$450$356 -
$352關聯數據:萬維網上的結構化數據 -
TensorFlow 與 Keras - Python 深度學習應用實務$650$553 -
$150Power BI 數據分析與可視化 -
$588基於雲計算的數據科學 -
$534算法與數據中台:基於 Google、Facebook 與微博實踐 -
大話 AWS 雲端架構:雲端應用架構圖解輕鬆學$550$429 -
$352RPA (流程自動化機器人) 入門 — 手把手教你應用 UiPath 自動化工作 -
中臺架構與實現:基於 DDD 和微服務$534$507 -
深度強化式學習 (Deep Reinforcement Learning in Action)$1,000$790 -
$474Python 大數據處理庫 PySpark 實戰 -
$180機器學習公式詳解 -
Python 刷題鍛鍊班:老手都刷過的 50 道程式題, 求職面試最給力 (Python Workout: 50 ten-minute exercises)$480$408 -
使用 AWS 在雲端建置 Linux 伺服器的 20堂課$500$395 -
圖解 SQL 查詢的基礎知識|以 MySQL 為例$520$411 -
鳳凰架構:構建可靠的大型分佈式系統$594$564 -
$275MySQL數據庫技術及應用項目教程 -
股票大作手操盤術:融合時間和價格的利弗莫爾準則(丁聖元 譯)$294$279 -
WebSecurity 網站滲透測試:Burp Suite 完全學習指南 (iT邦幫忙鐵人賽系列書)$600$468 -
最新 Python 基礎必修課 (含 ITS Python 國際認證模擬試題)$450$356 -
$426SQL 語言從入門到精通 -
用 Python 學 AI 理論與程式實作 (涵蓋Certiport ITS AI國際認證模擬試題)$580$458
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
在大數據、人工智能時代,數據分析必不可少。本書以數據分析中至關重要的數據預處理為主題,通過54道例題具體介紹了基於SQL、R、Python的處理方法和相關技巧。全書共4個部分:第1部分介紹預處理的基礎知識;第2部分介紹以數據結構為對象的預處理,包括數據提取、數據聚合、數據連接、數據拆分、數據生成和數據擴展;第3部分介紹以數據內容為對象的預處理,涉及數值型、分類型、日期時間型、字符型和位置信息型;第4部分為預處理實戰,介紹與實際業務相同的預處理流程。
本書適合新手數據科學家、系統工程師、具備編程及數理基礎的技術人才,以及對數據挖掘和數據分析等感興趣的人閱讀。
作者簡介
本橋智光(作者)
先後在系統開發公司擔任研究員,在因特網企業擔任數據科學家,目前在數字醫療初創公司SUSMED株式會社擔任CTO,同時就職於HOXO-M株式會社,並以自由職業者的身份從事量子退火計算機的驗證工作,擁有製造業、零售業、金融業、運輸業、休閒業和因特網等多個行業的數據分析經驗。
曾在KDD CUP 2015中贏得亞軍。
愛好是開發馬裏奧AI。
Twitter:@tomomoto_LV3
陳濤(譯者)
運籌學碩士畢業,主要從事數據庫、數據分析工作,對機器學習、深度學習領域相關的理論和技術較為熟悉。
因興趣自學日語,一直致力於追求興趣和工作的完美結合。
郵箱:victory123_456@163.com
目錄大綱
第 1部分 預處理入門 1
第 1章 什麼是預處理 2
1-1 數據 2
記錄數據 2
數據類型 3
1-2 預處理的作用 3
機器學習 4
無監督學習和有監督學習 4
用於數據分析的3種預處理 5
1-3 預處理的流程 6
對數據結構的預處理 7
對數據內容的預處理 7
預處理的步驟 7
1-4 3種編程語言 9
正確使用編程語言 9
1-5 包和庫 10
用於數據分析的包和庫 10
1-6 數據集 11
酒店預訂記錄 12
工廠產品記錄 13
月度指標記錄 14
文本數據集 14
1-7 讀取數據 14
第 2部分 對數據結構的預處理 19
第 2章 數據提取 20
2-1 提取指定的列 20
Q 提取列 21
2-2 按指定條件提取 26
Q 按條件提取數據行 28
Q 間接利用索引提取數據行 33
2-3 不基於數據值的採樣 35
Q 隨機採樣 35
2-4 基於聚合ID的採樣 38
Q 按ID採樣 39
第3章 數據聚合 43
3-1 計算數據條數和類型數 43
Q 計數和唯一值計數 44
3-2 計算合計值 48
Q 合計值 48
3-3 計算最值、代表值 50
Q 代表值 51
3-4 計算離散程度 54
Q 方差和標準差 54
3-5 計算眾數 57
Q 眾數 58
3-6 排序 61
排序函數 61
Q 為時序數據添加編號 62
Q 排序 66
第4章 數據連接 69
4-1 主表的連接 69
Q 主表的連接 70
4-2 切換按條件連接的表 77
Q 切換按條件連接的主表 77
4-3 連接歷史數據 84
Q 獲取往前數第n條記錄的數據 85
Q 前n條記錄的合計值 88
Q 前n條記錄的平均值 92
Q 過去n天的合計值 95
4-4 交叉連接 99
Q 交叉連接處理 99
第5章 數據拆分 105
5-1 記錄數據中模型驗證數據的拆分 105
Q 交叉驗證 107
5-2 時序數據中模型驗證數據的拆分 111
Q 準備時序數據中的訓練數據和驗證數據 113
第6章 數據生成 117
6-1 通過欠採樣調整不平衡數據 118
6-2 通過過採樣調整不平衡數據 119
Q 過採樣 120
第7章 數據擴展 124
7-1 轉換為橫向顯示 124
Q 轉換為橫向顯示 125
7-2 轉換為稀疏矩陣 128
Q 稀疏矩陣 128
第3部分 對數據內容的預處理 131
第8章 數值型 132
8-1 轉換為數值型 132
Q 各種數據類型的轉換 132
8-2 通過對數化實現非線性變換 135
Q 對數化 137
8-3 通過分類化實現非線性變換 139
Q 數值型的分類化 140
8-4 歸一化 142
Q 歸一化 143
8-5 刪除異常值 146
Q 根據標準差刪除異常值 146
8-6 用主成分分析實現降維 148
Q 用主成分分析實現降維 149
8-7 數值填充 152
Q 刪除缺失記錄 153
Q 用常數填充 155
Q 均值填充 157
Q 用PMM實現多重插補 160
第9章 分類型 164
9-1 轉換為分類型 164
Q 分類型的轉換 165
9-2 啞變量化 168
Q 啞變量化 169
9-3 分類值的聚合 171
Q 分類值的聚合 172
9-4 分類值的組合 175
Q 分類值的組合 175
9-5 分類型的數值化 177
Q 分類型的數值化 178
9-6 分類型的填充 181
Q 用KNN填充 182
第 10章 日期時間型 185
10-1 轉換為日期時間型、日期型 185
Q 日期時間型、日期型的轉換 185
10-2 轉換為年、月、日、時、分、秒、星期 189
Q 獲取各日期時間元素 190
10-3 轉換為日期時間差 194
Q 計算日期時間差 195
10-4 日期時間型的增減 200
Q 日期時間的增減處理 200
10-5 轉換為季節 203
Q 轉換為季節 204
10-6 轉換為時間段 208
10-7 轉換為工作日、休息日 209
Q 添加休息日標誌 209
第 11章 字符型 212
11-1 通過形態分析進行分解 213
Q 提取名詞和動詞 213
11-2 轉換為單詞的集合數據 215
Q 創建詞袋 216
11-3 用TF-IDF調整單詞權重 220
Q 創建使用TF-IDF的詞袋 221
第 12章 位置信息型 224
12-1 從日本坐標係到世界坐標系的轉換以及從度、分、秒到度的轉換 224
Q 從日本坐標系轉換為世界坐標系 224
12-2 兩點間距離、方向的計算 228
Q 計算距離 228
第4部分 預處理實戰 233
第 13章 實戰練習 234
13-1 聚合分析的預處理 234
Q 聚合分析的準備工作 234
13-2 用於推薦的預處理 238
Q 生成推薦矩陣 238
13-3 預測建模的預處理 243
Q 用於預測建模的預處理 243
結語 254
參考文獻 255


