數據分析通識
途索
- 出版商: 人民郵電
- 出版日期: 2020-10-01
- 定價: $479
- 售價: 7.9 折 $378
- 語言: 簡體中文
- 頁數: 293
- 裝訂: 平裝
- ISBN: 711554445X
- ISBN-13: 9787115544452
-
相關分類:
Data-mining
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
Growing Object-Oriented Software, Guided by Tests (Paperback)$2,160$2,052 -
圖解 HTTP$359$341 -
演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)$580$458 -
Soft Skills 軟實力|軟體開發人員的生存手冊 (Soft Skills: The software developer's life manual)$520$411 -
$594情感分析 : 挖掘觀點、情感和情緒 (Sentiment Analysis: Mining Opinions, Sentiments, and Emotions) -
$414活用數據:驅動業務的數據分析實戰 -
行銷資料科學|大數據x市場分析x人工智慧$520$411 -
$534數據中臺:讓數據用起來 -
$213數據準備和特徵工程 — 數據工程師必知必會技能 -
深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)$580$458 -
$327數據分析與數據可視化實戰 -
$403數據決策:企業數據的管理、分析與應用 -
Python 機器學習 (上), 3/e (Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 3/e)$620$484 -
$403Java 遊戲服務器架構實戰 -
實況直播:用 Docker 建構大型資料中心$880$695 -
$454中臺實踐:數字化轉型方法論與解決方案 -
Python 機器學習 (下), 3/e (Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 3/e)$520$406 -
$352數據中臺實戰:手把手教你搭建數據中臺 -
圖解 AI|機器學習和深度學習的技術與原理$450$356 -
30分鐘就讀懂:機器學習從數學開始$590$466 -
$505Jupyter Notebook 數據分析入門與實戰 -
$331數據中臺產品經理:從數據體繫到數據平臺實戰 -
華為數據之道$534$507 -
中臺架構與實現:基於 DDD 和微服務$534$507 -
$458特徵工程的藝術:通用技巧與實用案例
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書務實的數據分析科學技術、精彩的實際業務案例,很好地滿足了從業者的實際需求;
本書是作者結合近幾年的工作經驗,將在實際業務場景中的案例進行脫敏抽象,置於本書的每章之中,
從而形成的一本把數據分析科學技術應用於實際業務的數據分析類圖書。
主要內容包括數據處理的抽象流程、數據系統的有機組成、數據獲取、探索性數據分析、
目的性數據分析、數據可視化、特徵工程、模型、結果評價、數據應用等。
本書介紹了數據分析科學的許多方面,不但適合業務分析人員和數據分析與建模從業者學習,
還可作為大專院校相關專業師生的學慣用書,以及相關培訓學校的教材。
作者簡介
途索
就職於大型因特網公司,數據分析專家,從事多年數據科學相關的工作。
在消費級領域(C端)與企業級領域(B端)從事過數十個大數據與算法方面的工程與項目,曾多次得到公司的嘉獎和業內的肯定。
目錄大綱
目 錄
第0章 技術與業務 1
0.1 一個場景 1
0.2 什麼是業務 2
0.3 技術與業務的分工 3
0.4 數據分析工作者的定位 4
第 1章 數據處理的抽象流程與數據系統的有機組成 6
1.1 數據與大數據 6
1.2 數據驅動的系統 7
1.3 數據處理的一般環節 8
1.4 數據的服務對象 9
1.5 與數據業務相關的技術分工 11
第 2章 數據獲取 15
2.1 獲取數據需要的成本 15
2.2 獲取數據的主要方式 15
2.2.1 設備採集 15
2.2.2 業務記錄與調查 16
2.2.3 日誌與埋點 16
2.2.4 爬蟲抓取 17
2.2.5 合作、服務與購買 18
2.2.6 數據倉庫 19
2.3 採樣數據的陷阱 20
2.4 本章涉及的技術實現方案 22
2.4.1 爬蟲抓取(Python版) 22
2.4.2 前端埋點SDK 23
2.4.3 日誌採集 23
2.4.4 數據倉庫 23
第3章 探索性數據分析與目的性數據分析 24
3.1 探索性數據分析 24
3.2 一份數據集 24
3.3 數據字段分類 25
3.4 遍歷每個字段 26
3.4.1 瞭解離散屬性 27
3.4.2 瞭解連續屬性 28
3.4.3 分佈與分箱 32
3.4.4 異常值與數據清洗 36
3.5 數據分析的本質 37
3.5.1 尋找用來比較的實體 39
3.5.2 拿什麼進行比較 42
3.5.3 怎樣進行比較 42
3.6 目的性數據分析 89
3.6.1 目的性數據分析的一般方法 90
3.6.2 目的性數據分析的意義 92
3.7 本章涉及的技術實現方案 93
3.7.1 數據分析軟件 93
3.7.2 SQL 96
3.7.3 Python 97
3.7.4 大數據分析解決方案 98
第4章 展示信息的推薦方式——可視化 100
4.1 數據可視化 100
4.2 常見的圖表類型與應用場景 101
4.2.1 趨勢型 101
4.2.2 比較型 104
4.2.3 比例型 106
4.2.4 分佈型 107
4.2.5 區間型 109
4.2.6 關聯型 109
4.2.7 地理型 112
4.3 數據可視化與數據分析 112
4.3.1 數據可視化與假設檢驗、分佈擬合 112
4.3.2 數據可視化與多維分析、鑽取分析、交叉分析 115
4.3.3 數據可視化與秩次分析 117
4.3.4 數據可視化與相關分析、回歸分析 119
4.3.5 數據可視化與分組歸類 121
4.3.6 數據可視化與目的性數據分析 122
4.4 可視化數據交互 122
4.4.1 交互式可視化的流程 124
4.4.2 常見的數據可視化交互組件 124
4.5 可視化設計 125
4.5.1 可視化設計的美學原則 125
4.5.2 可視化設計的高效原則 126
4.5.3 可視化交互的一些準則 129
4.6 可視化工程 129
4.6.1 確定主題 130
4.6.2 提煉數據 130
4.6.3 選擇合適的圖表 131
4.6.4 可視化設計 131
4.7 本章涉及的技術實現方案 131
4.7.1 Python 131
4.7.2 開源可視化API 132
4.7.3 商業化 132
第5章 特徵工程 133
5.1 變量、字段、屬性、維度和特徵 133
5.2 特徵工程的內涵 135
5.3 特徵獲取 136
5.3.1 獲取用於提取特徵的數據 136
5.3.2 特徵的可用性評估 137
5.3.3 從特徵獲取的角度清洗數據 137
5.4 特徵處理與提取 138
5.4.1 數據清洗 138
5.4.2 特徵選擇 138
5.4.3 特徵變換 143
5.4.4 特徵抽取 153
5.4.5 特徵衍生 156
5.5 特徵監控 161
5.5.1 監控已有特徵 161
5.5.2 尋找新的特徵 162
5.6 一個例子 163
5.6.1 有哪些數據 163
5.6.2 提取業務特徵 164
5.6.3 特徵處理 165
5.6.4 二次特徵衍生 165
5.6.5 二次特徵處理 165
5.6.6 建模與疊代 165
5.7 頭腦風暴 166
5.8 本章涉及的技術實現方案 167
5.8.1 Python 167
5.8.2 大數據平臺的特徵工程模塊 168
5.8.3 組件化的特徵工程 168
第6章 模型 169
6.1 模型的概念 169
6.2 業務模型、數據模型、函數模型 170
6.2.1 業務模型 170
6.2.2 數據模型 171
6.2.3 函數模型 173
6.2.4 其他“模型”與上述3種模型的關系 174
6.3 機器學習與統計建模的聯系與區別 175
6.4 函數模型與業務 176
6.4.1 數據、特徵工程與函數模型 177
6.4.2 監督學習、無監督學習、半監督學習與歸納偏置 177
6.4.3 交叉驗證與過擬合 182
6.5 常見的函數模型 185
6.5.1 數據的刻畫方式 185
6.5.2 分類與回歸 191
6.5.3 聚類 237
6.5.4 關聯 245
6.5.5 半監督學習 249
6.6 調參 253
6.6.1 調參調的是超參數 253
6.6.2 經驗調參 254
6.6.3 簡單模型 254
6.7 什麼樣的模型是好模型 255
6.7.1 模型選擇 255
6.7.2 可解釋性 256
6.7.3 奧卡姆剃刀原理 257
6.8 遷移學習與強化學習 259
6.8.1 遷移學習 259
6.8.2 強化學習 261
6.9 本章涉及的技術實現方案 263
6.9.1 Python 263
6.9.2 大數據 264
第7章 結果評價 265
7.1 分類模型的結果評價 265
7.1.1 正樣本與負樣本 265
7.1.2 混淆矩陣及其衍生指標 266
7.1.3 ROC與AUC 268
7.1.4 提升圖 271
7.1.5 KS曲線 271
7.1.6 過採樣與欠採樣 272
7.2 回歸模型的結果評價 273
7.2.1 基於絕對數值的結果評價 273
7.2.2 基於比例數值的結果評價 274
7.2.3 決定系數與校正決定系數 274
7.3 聚類模型的結果評價 275
7.3.1 方差 275
7.3.2 輪廓系數 275
7.3.3 蘭德系數 276
7.4 關聯模型的結果評價 276
7.5 本章涉及的技術實現方案 276
第8章 數據應用與人工智能 278
8.1 業務數據化與數據業務化 278
8.2 數據應用的常見產出形式 279
8.2.1 指標 279
8.2.2 表格 280
8.2.3 可視化圖表與交互 273
8.2.4 報告 280
8.2.5 模型 280
8.3 幾種典型的數據應用系統 280
8.3.1 離線挖掘任務流 280
8.3.2 實時預測與挖掘任務 281
8.3.3 推薦系統 281
8.3.4 搜索引擎 282
8.3.5 Feed流 283
8.4 數據應用系統的優勢與限制 283
第9章 未來的數據與數據的未來 285
9.1 數據融合與未來數據驅動系統的展望 285
9.1.1 數據化是一切的起點 285
9.1.2 融合是數據發揮能量的關鍵 286
9.1.3 計算還是太慢了 287
9.1.4 為什麼要數據化、融合、計算? 287
9.2 人工智能 288
9.2.1 人與人工智能 288
9.2.2 智能是個系統 289
9.2.3 智能域 290
後記——擁抱不確定的美好 291
參考文獻 295


