Python數據分析從小白到專家

田越

  • 出版商: 電子工業
  • 出版日期: 2021-04-01
  • 定價: $528
  • 售價: 8.5$449
  • 語言: 簡體中文
  • 頁數: 300
  • ISBN: 7121409232
  • ISBN-13: 9787121409233
  • 相關分類: 資料科學

下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書共13章,主要內容涵蓋Python語法及數據分析方法。第1章主要介紹數據分析的概念,使讀者有一個大致的印象,並簡單介紹本書頻繁使用的Python的5個第三方庫。第2章主要做一些準備工作,手把手帶讀者搭建Python環境,包括Python 3.7.6的安裝和pip的安裝。第3章介紹Python編程基礎。第4章到第7章介紹使用Python進行簡單數據分析的基礎庫,包括NumPy、Pandas和Matplotlib庫,並介紹使用正則表達式處理數據的方法。第8章到第13章屬於進階內容,但也是Python數據分析的基礎,結合機器學習介紹一些常見的用於數據分析的機器學習算法及常用的數學模型。

目錄大綱

第1章 數據分析存在的意義 1 1.1 數據分析與Python 1 1.1.1 數據科學和數據分析的始末 1 1.1.2 為什麽使用Python作為腳本 2 1.2 本書的主要內容 3 1.2.1 數據分析基礎:NumPy、Pandas和Matplotlib庫概述 3 1.2.2 數據處理:NumPy庫簡介 4 1.2.3 數據處理:Pandas庫簡介 4 1.2.4 圖表繪制:Matplotlib庫簡介 5 1.2.5 中堅力量:Sklearn和Statsmodels庫簡介 5 第2章 開始前的準備 6 2.1 Python 3.7.6的安裝 6 2.1.1 Python3和Python2的區別 6 2.1.2 在Windows 10系統中下載並安裝Python 3.7.6 7 2.1.3 手動配置環境變量 10 2.2 pip的安裝 12 2.2.1 pip是什麽 12 2.2.2 在Windows系統中下載和安裝pip 12 2.2.3 使用pip命令下載和管理pip 14 第3章 Python編程基礎 17 3.1 Python編程初識 18 3.1.1 第一個Python程序 18 3.1.2 整型、浮點型、布爾型與復數型 19 3.1.3 不同數據類型之間的運算法則 22 3.1.4 Python中的常用內建函數 25 3.2 Python編程常用類型 27 3.2.1 Python的列表 27 3.2.2 Python的元組 31 3.2.3 Python的字典 34 3.2.4 Python的字符串 38 3.3 Python的條件、循環和分支語句以及異常處理 42 3.3.1 Python的編程風格 42 3.3.2 錯誤、異常和異常處理 43 3.3.3 條件語句:if、if-else和elif 45 3.3.4 循環語句:while和for 46 3.4 其他關於Python的重要知識點 49 3.4.1 匿名函數lambda 49 3.4.2 Python自定義類與打印函數 51 第4章 線性代數知識和第三方庫NumPy的使用 54 4.1 必要的線性代數知識 55 4.1.1 線性代數綜述 55 4.1.2 行列式 56 4.1.3 矩陣及矩陣的運算 60 4.1.4 矩陣的初等變換與秩、向量組與線性相關 65 4.1.5 相似矩陣 67 4.2 NumPy庫的基礎操作 69 4.2.1 NumPy庫的安裝和基本方法 69 4.2.2 創建一個數組 70 4.2.3 索引、切片和迭代 73 4.2.4 拼合、劃分一個矩陣 79 4.2.5 深拷貝、淺拷貝與不拷貝 84 4.3 用NumPy庫實現矩陣運算 87 4.3.1 矩陣基本運算一(矩陣加法、矩陣減法、矩陣數乘) 87 4.3.2 矩陣基本運算二(矩陣相乘、逆矩陣、矩陣的特徵值和特徵向量) 88 第5章 使用正則表達式處理數據 91 5.1 RE模塊簡述 91 5.1.1 正則表達式(RE)模塊使用的符號 92 5.1.2 正則表達式的匹配規則 93 5.2 使用正則表達式模塊 94 5.2.1 匹配對象方法group()和groups()的用法 95 5.2.2 使用管道符進行匹配 98 5.2.3 使用*、+、?、{}符號實現多個條件匹配 99 5.2.4 一些特殊格式的正則表達式匹配模式 100 第6章 使用Pandas庫處理數據 101 6.1 Pandas庫簡述 101 6.1.1 Pandas庫能做什麽 101 6.1.2 Pandas庫功能簡述 105 6.2 三種格式的文件後綴簡述 108 6.2.1 什麽是CSV文件 108 6.2.2 Python自帶的CSV模塊 109 6.2.3 為什麽要將TXT和Excel文件轉化為CSV文件 111 6.3 處理.csv格式的數據 111 6.3.1 用read_csv()和head()讀取CSV文件並顯示其行/列 112 6.3.2 查看列數、維度以及切片操作 112 6.3.3 讀取特定的列以及列的改值操作 113 6.3.4 求某一列的最大值、最小值、算術平均數以及數據的排序 114 6.3.5 Pandas庫的寫入操作——to_csv()方法 115 6.4 處理非.csv格式的數據 116 6.4.1 用Pandas庫讀取TXT文件 116 6.4.2 用Pandas庫讀取Excel文件 118 6.5 Pandas庫的其他常用操作 121 6.5.1 新增DataFrame數據結構的意義 121 6.5.2 創建與遍歷DataFrame數據結構 122 6.5.3 檢索已有的DataFrame數據結構 124 6.5.4 DataFrame數據結構的選擇操作 128 6.5.5 處理DataFrame數據結構中的缺失數據 134 第7章 使用Matplotlib庫實現數據可視化 136 7.1 Matplotlib庫簡述 136 7.1.1 Matplotlib庫的安裝 137 7.1.2 Matplotlib庫常見的問題 138 7.2 Matplotlib庫的基本方法 139 7.2.1 設定x軸與y軸的相關內容 139 7.2.2 “點”和“線”樣式的設定 144 7.3 使用Matplotlib庫繪制圖表 146 7.3.1 繪制柱狀圖 147 7.3.2 繪制直方圖 149 7.3.3 繪制散點圖 151 7.3.4 繪制餅狀圖 153 7.3.5 繪制折線圖 155 第8章 數學模型與數理統計 157 8.1 走進數學模型 158 8.1.1 什麽是數學模型 158 8.1.2 建立數學模型的一般步驟 160 8.1.3 數學模型示例 162 8.2 必要的數理統計知識 164 8.2.1 樣本、總體、個體、統計量 164 8.2.2 3個重要的分佈:χ2分佈、t分佈、f分佈 165 8.2.3 點估計、矩估計與區間估計 167 8.2.4 全概率公式和貝葉斯公式 168 8.2.5 依概率收斂與切比雪夫不等式 170 第9章 線性回歸 172 9.1 最小二乘法與切比雪夫準則 172 9.1.1 最小二乘法的數學原理 173 9.1.2 切比雪夫準則的數學原理 175 9.2 OLS回歸模型 175 9.2.1 OLS回歸模型的概念 176 9.2.2 如何生成測試數據 176 9.2.3 OLS回歸模型的代碼實現和可視化 179 9.3 LAD回歸模型 182 9.3.1 LAD回歸模型的概念 182 9.3.2 LAD回歸模型的代碼實現和可視化 183 9.4 OLS回歸模型與LAD回歸模型 186 9.4.1 比較OLS回歸模型與LAD回歸模型的擬合曲線 186 9.4.2 簡單的一元線性回歸分析的代碼展示 187 9.5 從極大似然估計再審視線性回歸 189 9.5.1 從傳統的數理統計到線性回歸 189 9.5.2 極大似然估計 190 9.5.3 假設檢驗基本概念 191 9.5.4 區間估計、置信區間和置信限 192 第10章 分類問題與邏輯回歸 197 10.1 邏輯回歸:從分類問題談起 197 10.1.1 從線性回歸到分類問題 198 10.1.2 邏輯回歸與Sigmoid函數 199 10.1.3 使用極大似然估計計算Sigmoid函數的損失函數 201 10.1.4 邏輯回歸模型求解的本質 202 10.2 從梯度上升法與梯度下降法到邏輯回歸 202 10.2.1 梯度上升法和梯度下降法的由來 202 10.2.2 梯度下降法及梯度上升法的數學原理 203 10.2.3 用Python實現邏輯回歸 206 10.2.4 題外話:從用Python實現邏輯回歸中看psutil庫 216 10.2.5 邏輯回歸可視化:繪制決策邊界 220 第11章 模型評估與模型改進 223 11.1 線性回歸模型的評估與改進 223 11.1.1 線性回歸模型的評估 224 11.1.2 模型改進:從一元線性回歸到多元線性回歸問題 231 11.1.3 模型改進:過度擬合與添加、設定懲罰項 238 11.2 邏輯回歸模型的評估與改進 239 11.2.1 分類模型的評估:查準率、查全率及F-score 239 11.2.2 分類模型的評估:ROC曲線、AUC指標 241 11.2.3 模型改進:隨機梯度下降法 242 11.2.4 邏輯回歸最終代碼展示(使用隨機梯度下降法) 245 第12章 聚類:K-means算法 248 12.1 K-means算法及相關內容的基本概念 248 12.1.1 聚類與機器學習的概念 249 12.1.2 聚類:K-means算法的原理 250 12.2 K-means算法的Python實現 253 12.2.1 樸素的K-means算法的Python實現 253 12.2.2 樸素的K-means算法的Python實現的具體解析 256 12.2.3 模型改進:使用不同顏色和形狀標記不同的簇 261 12.2.4 K-means算法改進:使用二分K-means算法 263 第13章 分類:KNN算法 271 13.1 KNN算法的基本概念 271 13.1.1 KNN算法的相關概念 271 13.1.2 KNN算法原理概述 272 13.2 KNN算法的Python實現 274 13.2.1 製作測試用例數據集 274 13.2.2 KKN算法的具體實現 279 13.2.3 KKN算法的完整代碼 282 13.3 結語:關於數據分析 285 13.3.1 決策樹之前:樹的概念 285 13.3.2 信息熵和決策樹 285 13.3.3 寫在最後的話:留給機器學習 286