數據挖掘實用案例分析(第2版)

趙衛東、董亮

  • 出版商: 清華大學
  • 出版日期: 2024-03-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • ISBN: 7302658099
  • ISBN-13: 9787302658092
  • 下單後立即進貨 (約4週~6週)

  • 數據挖掘實用案例分析(第2版)-preview-1
  • 數據挖掘實用案例分析(第2版)-preview-2
  • 數據挖掘實用案例分析(第2版)-preview-3
數據挖掘實用案例分析(第2版)-preview-1

商品描述

數據挖掘已經廣泛應用於各行各業,並推動了商務數據分析的興起。本書結合項目實踐,首先對數據挖掘的核心問題進行總結,討論數據挖掘過程的主要步驟。在此基礎上,使用Python語言詳細地分析 數據 可視化、隨機森林、GBDT、XGBoost、AdaCostBoost、邏輯回歸等 在醫療保險稽核、淡水質量預測、彈幕 情感分析、機器學習書籍市場分析、慢性腎臟病狀態預測、 行車記錄儀銷量分析、商務酒店競爭分析等典型領域的應用。 全書內容深入淺出,案例生動形象,應用性強,可以作為高等學校相關專業“數據挖掘”“商務數據分析”等課程的實驗和實訓教材,也適合對數據分析感興趣的廣大讀者使用。

目錄大綱

目錄

第1章數據分析基礎

1.1業務理解

1.2數據理解

1.3數據質量問題與預處理

1.4數據分析常見陷阱

1.5數據分析方法的選擇

1.5.1分類算法

1.5.2聚類算法

1.5.3關聯分析

1.5.4回歸分析

1.5.5深度學習

1.5.6統計方法

1.6數據分析結果的評價

1.6.1分類算法的評價

1.6.2聚類結果的評價

1.6.3關聯分析的評價

1.6.4回歸分析結果的評價

1.7數據分析團隊的組建

1.7.1項目經理

1.7.2業務專家

1.7.3數據工程師

1.7.4數據建模人員

1.7.5可視化人員

1.7.6評估人員

1.8數據分析人才培養的難題

1.8.1數理要求高

1.8.2跨學科綜合能力欠缺

1.8.3國內技術資料少

1.8.4實踐機會少

思考題

第2章Anaconda的安裝與使用

2.1Anaconda的下載與安裝

2.2配置Python庫

2.3創建自定義新環境

2.4集成開發環境的使用

2.5搭建GPU環境

思考題

第3章醫療保險稽核

3.1數據預處理

3.1.1特徵選擇

3.1.2數據清洗

3.1.3數據離散化

3.1.4特徵值處理

3.1.5數據平衡

3.1.6樣本權重系數設置

3.1.7數據轉換

3.2醫療保險稽核建模和評估

3.3結果分析

思考題

第4章機器學習書籍市場分析

4.1數據獲取

4.2數據預處理

4.3市場總體分析

4.4書籍暢銷因素分析

4.4.1隨機森林模型

4.4.2商品評論詞頻分析

4.4.3商品評論主題分析

4.4.4其他值得關註的問題

4.5Apriori關聯分析

4.6機器學習書聚類分析

4.7給電商平臺上架圖書的建議

思考題

第5章預測淡水質量

5.1數據清洗處理

5.1.1缺失值的處理

5.1.2特徵數值分佈

5.1.3異常值檢測

5.1.4相關性檢驗

5.1.5數據離散化

5.1.6標簽編碼

5.1.7採樣平衡

5.2模型的訓練

5.2.1模型訓練與預測

5.2.2模型的優化

5.3模型評估

思考題

第6章彈幕情感分析

6.1數據收集

6.2數據預處理

6.2.1去除無效內容

6.2.2分詞和詞性標註

6.2.3去除停用詞

6.2.4主題詞提取

6.2.5去除低頻詞

6.2.6編碼

6.2.7標註

6.2.8獲取詞向量

6.3情感分析

6.3.1基於SnowNLP庫的情感分析方法

6.3.2基於機器學習的情感分析方法

思考題

第7章海底撈運營分析

7.1業務背景分析

7.2數據抓取

7.3數據預處理

7.4店鋪經營分析

7.4.1影響海底撈運營的關鍵因素分析

7.4.2店鋪選址分析

7.4.3菜品關聯分析

7.4.4用戶評論與評分分析

7.4.5顧客情感分析

思考題

第8章慢性腎臟病狀態預測

8.1業務背景分析

8.2數據收集

8.3數據探索

8.3.1CKD_rate和CKD_stage分佈

8.3.2醫院

8.3.3性別

8.3.4相關遺傳病史

8.3.5血指標

8.3.6eGFR

8.4數據預處理

8.4.1數據清洗

8.4.2數據編碼

8.4.3數據離散化

8.4.4數據平衡

8.4.5特徵重要性分析

8.5慢性腎臟病狀態預測分析

8.5.1邏輯回歸

8.5.2決策樹

8.5.3隨機森林

8.5.4XGBoost

8.5.5支持向量機

8.5.6神經網絡

8.6參數調節

8.7模型評估

8.8慢性腎臟病聚類分析

8.9慢性腎臟病關聯分析

8.10慢性腎臟病回歸分析

思考題

第9章行車記錄儀銷量分析

9.1業務背景分析

9.2數據說明

9.3數據預處理

9.3.1數據清洗

9.3.2離散數據編碼

9.3.3數據離散化

9.3.4特徵重要性評估

9.3.5數據平衡

9.4行車記錄儀銷量分析

9.5行車記錄儀聚類分析

9.6行車記錄儀關聯分析

9.7行車記錄儀回歸分析

思考題

第10章商務酒店競爭分析

10.1業務背景分析

10.2數據提取

10.3數據預處理

10.3.1數據初步篩選

10.3.2分詞

10.3.3關鍵詞提取

10.4數據分析

10.4.1客戶情感分析

10.4.2結果分析

10.5不同酒店的競爭分析

10.5.1酒店評分比較

10.5.2客戶吸引力對比

10.5.3不同酒店客戶情感對比

思考題

第11章常見機器學習算法加速

11.1使用Intel OneAPI加速

11.1.1數據預處理

11.1.2數據集劃分與建模預測

11.1.3模型評估

11.2不使用Intel OneAPI的方案

11.2.1數據集劃分與建模預測

11.2.2模型評估

11.3加速與否的對比分析

思考題

第12章綜合實訓: 銀行信用卡欺詐與拖欠行為分析

12.1用戶信用等級影響因素

12.1.1客戶信用卡申請數據預處理

12.1.2信用卡申請成功影響因素

12.1.3信用卡用戶信用等級影響因素

12.2基於消費的信用等級影響因素

12.3信用卡欺詐判斷模型

12.3.1基於Apriori算法的欺詐模型

12.3.2基於判別的欺詐模型

12.3.3基於分類算法的欺詐模型

12.4欺詐人口屬性分析

12.4.1欺詐人口屬性統計分析

12.4.2基於邏輯回歸的欺詐人口屬性分析

12.4.3逾期還款的客戶特徵

12.4.4基於決策樹分析逾期客戶特徵

12.4.5基於回歸分析逾期客戶特徵

12.4.6根據消費歷史分析客戶特徵

12.4.7基於聚類分析客戶特徵

12.4.8基於客戶細分的聚類分析

附錄習題