Python大數據分析與挖掘實戰(微課版)

黃恆秋 莫潔安 謝東津 張良均 蘇穎

  • 出版商: 人民郵電
  • 出版日期: 2020-11-01
  • 售價: $359
  • 貴賓價: 9.5$341
  • 語言: 簡體中文
  • 頁數: 278
  • 裝訂: 平裝
  • ISBN: 7115542406
  • ISBN-13: 9787115542403
  • 相關分類: 大數據 Big-data資料科學

立即出貨

  • Python大數據分析與挖掘實戰(微課版)-preview-1
Python大數據分析與挖掘實戰(微課版)-preview-1

買這商品的人也買了...

相關主題

商品描述

從Python基礎入門開始,到應用Python進行科學計算、數據處理、數據可視化、
機器學習、深度學習,再到利用Python進行金融、地理信息、交通、文本、
圖像等具體領域數據挖掘與分析,並最終利用Python進行項目GUI可視化應用開發。
本書深入淺出地介紹瞭如何學習Python數據分析技能及應用於具體領域,實踐性強。

本書分三篇:
基礎篇、案例篇和提高篇;
基礎篇(第1~6章)主要介紹Python基本知識及應用於科學計算、
數據處理、數據可視化、機器學習、深度學習等方面的基礎知識;
案例篇(第7~11章)主要介紹了利用Python進行金融、地理信息、
交通、文本和圖像具體領域的數據挖掘分析應用案例;
提高篇(第12章)主要介紹GUI可視化應用項目開發;
附錄提供6個實訓課題,在電子資源中會給出詳細的實訓指導、數據和程序代碼。

本書提供了豐富的數據、案例及程序代碼,同時理論與實踐相結合,
以應用為主。
適合大數據、數學、電腦、經濟金融管理類的本科生和大專生學習。
對於研究生及數據挖掘研究者、愛好者也具有很好的參考價值。

作者簡介

黃恆秋2011.7-2014.6

就職於深圳市國泰安信息技術有限公司,擔任CSMAR數據庫分析師,
軟件策劃及設計相關工作2014.9-今廣西民族師範學院數學與計算機科學學院專任教師,
軍事數據分析與挖掘,數學建模,Python語言,MATLAB語言,高等數學相關課程教學工作。

目錄大綱

基礎篇 1
第 1章 Python基礎 1
1.1 Python概述 1
1.2 Python安裝及啟動 1
1.2.1 Python安裝 1
1.2.2 Python啟動及界面認識 4
1.3 Python擴展包安裝 9
1.3.1 在線安裝 9
1.3.2 離線安裝 10
1.4 Python基本數據類型 11
1.4.1 數值的定義 11
1.4.2 字符串的定義 11
1.4.3 列表的定義 12
1.4.4 元組的定義 12
1.4.5 集合的定義 12
1.4.6 字典的定義 13
1.5 Python相關的公有方法 13
1.5.1 索引 13
1.5.2 切片 14
1.5.3 長度 15
1.5.4 統計 15
1.5.5 成員身份 15
1.5.6 變量刪除 16
1.6 列表、元組、字符串與字典方法 16
1.6.1 列表方法 16
1.6.2 元組方法 18
1.6.3 字符串方法 19
1.6.4 字典方法 20
1.7 條件語句 21
1.7.1 if…語句 21
1.7.2 if…else…語句 21
1.7.3 if…elif…else…語句 22
1.8 循環語句 22
1.8.1 while語句 22
1.8.2 for循環 23
1.9 函數 23
1.9.1 無返回值函數的定義與調用 23
1.9.2 有返回值函數的定義與調用 24
1.9.3 有多返回值函數的定義與調用 24
本章小結 25
本章練習 25

第 2章 科學計算包Numpy 26
2.1 Numpy簡介 26
2.2 創建數組 27
2.2.1 利用array()函數創建數組 27
2.2.2 利用內置函數創建數組 28
2.3 數組尺寸 28
2.4 數組運算 29
2.5 數組切片 30
2.5.1 常見的數組切片方法 30
2.5.2 利用ix_()函數進行數組切片 31
2.6 數組連接 32
2.7 數據存取 33
2.8 數組形態變換 34
2.9 數組排序與搜索 35
2.10 矩陣與線性代數運算 36
2.10.1 創建Numpy矩陣 36
2.10.2 矩陣的屬性和基本運算 37
2.10.3 線性代數運算 38
本章小結 41
本章練習 42

第3章 數據處理包Pandas 43
3.1 Pandas簡介 43
3.2 序列 44
3.2.1 序列創建及訪問 44
3.2.2 序列屬性 45
3.2.3 序列方法 46
3.2.4 序列切片 47
3.2.5 序列聚合運算 48
3.3 數據框 48
3.3.1 數據框創建 49
3.3.2 數據框屬性 49
3.3.3 數據框方法 50
3.3.4 數據框切片 54
3.4 外部文件讀取 56
3.4.1 Excel文件讀取 56
3.4.2 TXT文件讀取 57
3.4.3 CSV文件讀取 58
3.5 常用函數 59
3.5.1 滾動計算函數 59
3.5.2 數據框合並函數 60
3.5.3 數據框關聯函數 61
本章小結 62
本章練習 63

第4章 數據可視化包Matplotlib 65
4.1 Matplotlib繪圖基礎 65
4.1.1 Matplotlib圖像構成 65
4.1.2 Matplotlib繪圖基本流程 65
4.1.3 中文字符顯示 67
4.1.4 坐標軸字符刻度標註 69
4.2 Matplotlib常用圖形繪制 70
4.2.1 散點圖 71
4.2.2 線性圖 72
4.2.3 柱狀圖 73
4.2.4 直方圖 74
4.2.5 餅圖 75
4.2.6 箱線圖 75
4.2.7 子圖 76
本章小結 79
本章練習 79

第5章 機器學習與實現 80
5.1 Scikit-learn簡介 80
5.2 數據預處理 80
5.2.1 缺失值處理 81
5.2.2 數據規範化 83
5.2.3 主成分分析 86
5.3 線性回歸 93
5.3.1 一元線性回歸 93
5.3.2 多元線性回歸 96
5.3.3 Python線性回歸應用舉例 97
5.4 邏輯回歸 99
5.4.1 邏輯回歸模型 99
5.4.2 Python邏輯回歸模型應用舉例 100
5.5 神經網絡 101
5.5.1 神經網絡模擬思想 101
5.5.2 神經網絡結構及數學模型 103
5.5.3 Python神經網絡分類應用舉例 104
5.5.4 Python神經網絡回歸應用舉例 105
5.6 支持向量機 106
5.6.1 支持向量機原理 106
5.6.2 Python支持向量機應用舉例 107
5.7 K-均值聚類 109
5.7.1 K-均值聚類的基本原理 110
5.7.2 Python K-均值聚類算法應用舉例 113
5.8 關聯規則 114
5.8.1 關聯規則概念 114
5.8.2 布爾關聯規則挖掘 116
5.8.3 一對一關聯規則挖掘及Python實現 116
5.8.4 多對一關聯規則挖掘及Python實現 118
本章小結 123
本章練習 123

第6章 深度學習與實現 128
6.1 深度學習簡介 128
6.2 深度學習框架簡介 128
6.2.1 Caffe框架 128
6.2.2 Theano框架 129
6.2.3 PaddlePaddle框架 129
6.2.4 TensorFlow框架 129
6.3 TensorFlow基礎 129
6.3.1 TensorFlow安裝 129
6.3.2 TensorFlow命令簡介 133
6.3.3 TensorFlow案例 135
6.4 多層神經網絡 139
6.4.1 多層神經網絡結構及數學模型 139
6.4.2 多層神經網絡分類問題應用舉例 141
6.4.3 多層神經網絡回歸問題應用舉例 144
6.5 捲積神經網絡 151
6.5.1 捲積層計算 151
6.5.2 池化層計算 153
6.5.3 全連接層計算 155
6.5.4 CNN應用案例 155
6.6 循環神經網絡 161
6.6.1 RNN結構及數學模型 161
6.6.2 長短期記憶網絡(LSTM) 162
6.6.3 RNN應用案例 164
本章小結 167
本章練習 168
案例篇 169

第7章 基於財務與交易數據的量化投資分析 169
7.1 案例背景 169
7.2 案例目標及實現思路 169
7.3 基於總體規模與投資效率指標的綜合評價 170
7.3.1 指標選擇 171
7.3.2 數據獲取 171
7.3.3 數據處理 173
7.3.4 主成分分析 174
7.3.5 綜合排名 174
7.4 技術分析指標選擇與計算 175
7.4.1 移動平均線 176
7.4.2 指數平滑異同平均線 176
7.4.3 隨機指標 177
7.4.4 相對強弱指標 177
7.4.5 乖離率指標 178
7.4.6 能量潮指標 178
7.4.7 漲跌趨勢指標 179
7.4.8 計算舉例 179
7.5 量化投資模型與策略實現 182
7.5.1 投資組合構建 183
7.5.2 基於邏輯回歸的量化投資策略實現 183
本章小結 186
本章練習 186

第8章 眾包任務定價優化方案 187
8.1 案例背景 187
8.2 案例目標及實現思路 188
8.3 數據獲取與探索 188
8.3.1 地理信息可視化包folium安裝 188
8.3.2 數據讀取與地圖可視化 189
8.4 指標計算 190
8.4.1 指標設計 190
8.4.2 指標計算方法 191
8.4.3 程序實現 192
8.5 任務定價模型構建 198
8.5.1 指標數據預處理 198
8.5.2 多元線性回歸模型 201
8.5.3 神經網絡模型 202
8.6 方案評價 202
8.6.1 任務完成增加量 202
8.6.2 成本增加額 203
8.6.3 完整實現代碼 203
本章小結 205
本章練習 205

第9章 地鐵站點日客流量預測 205
9.1 案例背景 206
9.2 案例目標及實現思路 206
9.3 數據獲取與探索 207
9.3.1 二分法查找思想 208
9.3.2 每日數據index範圍提取 208
9.4 指標計算 209
9.4.1 指標設計 210
9.4.2 指標計算方法 210
9.4.3 程序實現 210
9.4.4 指標數據預處理 214
9.5 數據可視化 214
9.6. 因素分析 218
9.6.1 SPSS 進行指數平滑 218
9.6.2 因素分析結果 221
9.7神經網絡預測模型的建立 222
9.7.1 示例站點客流量預測 222
9.7.2 全部站點客流量預測 224
9.7.3模型預測結果分析 226
本章小結 227
本章練習 227

第 10章 微博文本情感分析 228
10.1 案例背景 228
10.2 案例目標及實現思路 228
10.3 數據預處理過程 229
10.3.1 數據讀取 229
10.3.2 分詞 230
10.3.3 去停用詞 232
10.3.4 詞向量 233
10.3.5 劃分數據集 236
10.4 支持向量機分類模型 237
10.5 基於LSTM網絡的分類模型 238
本章小結 241
本章練習 241

第 11章 基於人民幣圖像的面額識別 242
11.1 案例背景 242
11.2 案例目標及實現思路 242
11.3 數據獲取與探索 243
11.4 支持向量機識別模型 245
11.4.1 顏色特徵計算方法 245
11.4.2 自變量與因變量計算 246
11.4.3 模型實現 247
11.5 捲積神經網絡識別模型:灰圖 248
11.5.1 數據處理 248
11.5.2 模型實現 249
11.6 捲積神經網絡識別模型:彩圖 252
11.6.1 數據處理 252
11.6.2 模型實現 254
本章小結 255
本章練習 255
提高篇 257

第 12章 GUI可視化應用開發 257
12.1 人民幣面額識別系統 257
12.1.1 Pycharm安裝 257
12.1.2 創建項目文件夾 260
12.1.3 配置QtDesigner工具 262
12.1.4 配置代碼生成工具 264
12.1.5 系統界面設計 266
12.1.6 系統界面轉化為PyQt5代碼 268
12.1.7 配置項目解釋器 271
12.1.8 系統功能實現 273
12.1.9 生成可獨立運行的exe文件 276
12.2 上市公司綜合評價系統 280
12.2.1 界面設計 281
12.2.2 系統功能實現 283
12.2.3 生成exe文件 286
本章小結 287
本章練習 287
附錄 綜合實訓課題 288
參考文獻 290