Python數據分析與應用:從數據獲取到可視化

黑馬程序員

  • 出版商: 中國鐵道
  • 出版日期: 2019-01-01
  • 定價: $312
  • 售價: 8.5$265
  • 語言: 簡體中文
  • 頁數: 272
  • 裝訂: 平裝
  • ISBN: 7113251455
  • ISBN-13: 9787113251451
  • 相關分類: 資料科學

立即出貨 (庫存 < 4)

買這商品的人也買了...

商品描述

本書採用理論與案例相結合的形式,以Anaconda為主要開發工具,系統、全面地介紹了Python數據分析的相關知識。
全書共分為9章,
第1章介紹了數據分析的基本概念,以及開發工具的安裝和使用;
第2~6章介紹了Python數據分析的常用庫及其應用,涵蓋了科學計算庫NumPy、
數據分析庫Pandas、數據可視化庫Matplotlib、Seaborn與Bokeh;
第7、8章主要介紹了時間序列和文本數據的分析;
第9章結合之前所學的技術開發了一個綜合案例,演示如何在項目中運用所學的知識。
除了第1章外,其他章節都包含了很多示例和綜合案例,
通過動手操作和練習,可以幫助讀者更好地理解和掌握所學的知識。
本書適合作為高等院校計算機相關專業的大數據技術類課程教材,
也可以作為大數據技術愛好者入門用書。

作者簡介

江蘇傳智播客教育科技股份有限公司(簡稱傳智播客)是一家專門致力於高素質軟件開發人才培養的高科技公司。
“黑馬程序員”是傳智播客旗下高端IT教育品牌。

目錄大綱

目錄
第1章數據分析概述1
1.1數據分析的背景1
1.2什麼是數據分析2
1.3數據分析的應用場景2
1.4數據分析的流程3
1.5為什麼選擇Python做數據分析4
1.6創建新的Python環境——Anaconda 5
1.6.1 Anaconda發行版本概述5
1.6.2在Windows系統中安裝Anaconda 5
1.6.3通過Anaconda管理Python包7
1.7啟用Jupyter Notebook 9
1.7.1啟動Anaconda自帶的Jupyter Notebook 9
1.7.2 Jupyter Notebook界面詳解10
1.7.3 Jupyter Notebook的基本使用13
1.8常見的數據分析工具16
小結17
習題17

第2章科學計算庫NumPy 19
2.1認識NumPy數組對象19
2.2創建NumPy數組21
2.3 ndarray對象的數據類型22
2.3.1查看數據類型22
2.3.2轉換數據類型23
2.4數組運算24
2.4.1矢量化運算24
2.4.2數組廣播25
2.4.3數組與標量間的運算25
2.5 ndarray的索引和切片26
2.5.1整數索引和切片的基本使用26
2.5.2花式(數組)索引的基本使用28
2.5.3布爾型索引的基本使用29
2.6數組的轉置和軸對稱30
2.7 NumPy通用函數32
2.8利用NumPy數組進行數據處理34
2.8.1將條件邏輯轉為數組運算34
2.8.2數組統計運算34
2.8.3數組排序35
2.8.4檢索數組元素36
2.8.5唯一化及其他集合邏輯36
2.9線性代數模塊37
2.10隨機數模塊38
2.11案例——酒鬼漫步39
小結40
習題40

第3章數據分析工具Pandas 42
3.1 Pandas的數據結構分析42
3.1.1 Series 42
3.1.2 DataFrame 44
3.2 Pandas索引操作及高級索引46
3.2.1索引對象46
3.2.2重置索引47
3.2.3索引操作49
3.3算術運算與數據對齊53
3.4數據排序54
3.4.1按索引排序54
3.4.2按值排序55
3.5統計計算與描述56
3.5.1常用的統計計算57
3.5.2統計描述58
3.6層次化索引59
3.6.1認識層次化索引59
3.6.2層次化索引的操作64
3.7讀寫數據操作68
3.7.1讀寫文本文件68
3.7.2讀寫Excel文件70
3.7.3讀取HTML表格數據72
3.7. 4讀寫數據庫73
3.8案例——北京高考分數線統計分析77
2.8.1案例需求77
2.8.2數據準備77
2.8.3功能實現78
小結81
習題81

第4章數據預處理83
4.1數據清洗83
4.1. 1空值和缺失值的處理83
4.1.2重複值的處理88
4.1.3異常值的處理90
4.1.4更改數據類型94
4.2數據合併96
4.2.1軸向堆疊數據96
4.2.2主鍵合併數據99
4.2.3根據行索引合併數據103
4.2.4合併重疊數據105
4.3數據重塑106
4.3.1重塑層次化索引106
4.3.2軸向旋轉109
4.4數據轉換110
4.4. 1重命名軸索引110
4.4.2離散化連續數據112
4.4.3啞變量處理類別型數據113
4.5案例——預處理部分地區信息115
4.5.1案例需求115
4.5.2數據準備115
4.5.3功能實現116
小結123
習題123

第5章數據聚合與分組運算125
5.1分組與聚合的原理125
5.2通過groupby()方法將數據拆分成組126
5.3數據聚合132
5.3.1使用內置統計方法聚合數據132
5.3 .2面向列的聚合方法132
5.4分組級運算136
5.4.1數據轉換136
5.4.2數據應用138
5.5案例——運動員信息的分組與聚合141
5.5.1案例需求141
5.5.2數據準備141
5.5.3功能實現142
小結146
習題147

第6章數據可視化149
6.1數據可視化概述149
6.1.1什麼是數據可視化149
6.1.2常見的圖表類型150
6.1.3數據可視化的工具154
6.2 Matplotlib——繪製圖表155
6.2.1通過figure()函數創建畫布155
6.2.2通過subplot()函數創建單個子圖157
6.2.3通過subplots()函數創建多個子圖158
6.2.4通過add_subplot()方法添加和選中子圖160
6.2.5添加各類標籤161
6.2.6繪製常見圖表162
6.2.7本地保存圖形167
6.3 Seaborn——繪製統計圖形168
6.3.1可視化數據的分佈168
6.3.2用分類數據繪圖174
6.4 Bokeh——交互式可視化庫178
6.4.1認識Bokeh庫178
6.4.2通過Plotting繪製圖形179
6.5案例——畫圖分析某年旅遊景點數據180
6.5.1案例需求181
6.5.2數據準備181
6.5.3功能實現181
小結185
習題185

第7章時間序列分析187
7.1時間序列的基本操作187
7.1.1創建時間序列187
7.1.2通過時間戳索引選取子集189
7.2固定頻率的時間序列191
7.2 .1創建固定頻率的時間序列191
7.2.2時間序列的頻率、偏移量193
7.2.3時間序列的移動195
7.3時間週期及計算196
7.3.1創建時期對象196
7.3.2時期的頻率轉換198
7.4重採樣198
7.4.1重採樣方法(resample) 199
7.4.2降採樣200
7.4.3升採樣201
7.5數據統計——滑動窗口203
7.6時序模型——ARIMA 206
7.7案例——股票收盤價分析207
7.7.1案例需求207
7.7.2數據準備207
7.7.3功能實現208
小結213
習題214

第8章文本數據分析216
8.1文本數據分析工具216
8.1.1 NLTK與jieba概述216
8.1.2安裝NLTK和下載語料庫217
8.1.3 jieba庫的安裝219
8.2文本預處理220
8.2.1預處理的流程220
8.2.2分詞221
8.2.3詞性標註223
8.2 .4詞形歸一化224
8.2.5刪除停用詞226
8.3文本情感分析227
8.4文本相似度229
8.5文本分類232
8.6案例——商品評價分析235
8.6.1案例需求235
8.6.2數據準備236
8.6.3功能實現236
小結240
習題240

第9章數據分析實戰——北京租房數據統計分析242
9.1數據來源242
9.2數據讀取243
9.3數據預處理244
9.3.1重複值和空值處理244
9.3. 2數據轉換類型246
9.4圖表分析247
9.4.1房源數量、位置分佈分析248
9.4.2戶型數量分析255
9.4.3平均租金分析258
9.4.4面積區間分析260
小結262