Python 數據處理 (Data Wrangling with Python) Python数据处理

傑奎琳·凱澤爾 (Jacqueline Kazil), 凱瑟琳·賈繆爾 (Katharine Jarmul)

  • 出版商: 人民郵電出版社
  • 出版日期: 2017-07-01
  • 定價: CNY $99.00
  • 售價: $594
  • 貴賓價: 9.5$564
  • 語言: 簡體中文
  • 頁數: 378
  • 裝訂: 平裝
  • ISBN: 7115459193
  • ISBN-13: 9787115459190
  • 相關標籤: Python

立即出貨

買這商品的人也買了...

產品描述

本書採用基於項目的方法,介紹用Python完成數據獲取、數據清洗、數據探索、數據呈現、數據規模化和自動化的過程。

主要內容包括:Python基礎知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數據,如何獲取與存儲數據,各種數據清洗與分析技術,數據可視化方法,如何從網站和API中提取數據。

用傳統的電子表格來處理數據不僅效率低下,而且無法處理某些格式的數據,對於混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕鬆處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。

 

*快速瞭解Python基本語法、數據類型和語言概念

*概述數據的獲取與存儲方式

*清洗數據並格式化,以消除數據集中的重複值與錯誤

*學習何時對數據進行標準化,何時對數據清理進行測試並將其腳本化

*使用Scrapy寫網絡爬蟲

*利用新的Python庫和技術對數據集進行探索與分析

*使用Python解決方案將整個數據處理過程自動化

作者簡介

Jacqueline Kazil,數據科學家,zi深軟件開發者。活躍於Python軟件基金會、PyLadies等社區。曾參與美國總統創新夥伴項目,是美國政府技術組織18F的聯合創始人。曾擔任《華盛頓郵報》數據記者。

Katharine Jarmul,zi深Python開發者,PyLadies聯合創始人。喜歡數據分析和獲取、網頁抓取、教人學習Python以及Unix,期望通過教育和培訓來促進Python和其他開源語言的多元化。

譯者:張亮、呂家明

目錄大綱

前言xiii 

第1章Python簡介1 

1.1為什麼選擇Python 4 

1.2開始使用Python 4 

1.2.1 Python版本選擇5 

1.2.2安裝Python 6 

1.2.3測試Python 9 

1.2.4安裝pip 11 

1.2.5安裝代碼編輯器12 

1.2.6安裝IPython(可選) 13 

1.3小結13 

第2章Python基礎14 

2.1基本數據類型15 

2.1.1字符串15 

2.1.2整數和浮點數15 

2.2數據容器18 

2.2.1變量18 

2.2. 2列表21 

2.2.3字典22 

2.3各種數據類型的用途23 

2.3.1字符串方法:字符串能做什麼24 

2.3.2數值方法:數字能做什麼25 

2.3.3列表方法:列表能做什麼26 

2.3.4字典方法:字典能做什麼27 

2.4有用的工具:type、dir和help 28 

2.4.1 type 28 

2.4.2 dir 28 

2.4.3 help 30 

2.5綜合運用31 

2.6代碼的含義32 

2.7小結33 

第3章供機器讀取的數據34 

3.1 CSV數據35 

3.1.1如何導入CSV數據36 

3.1.2將代碼保存到文件中並在命令行中運行39 

3.2 JSON數據41 

3.3 XML數據44 

3.4小結56 

第4章處理Excel文件58 

4.1安裝Python包58 

4.2解析Exc el文件59 

4.3開始解析60 

4.4小結71 

第5章處理PDF文件,以及用Python解決問題73 

5.1盡量不要用PDF 73 

5.2解析PDF的編程方法74 

5.2.1利用slate庫打開並讀取PDF 75 

5.2. 2將PDF轉換成文本77 

5.3利用pdfminer解析PDF 78 

5.4學習解決問題的方法92 

5.4.1練習:使用表格提取,換用另一個庫94 

5.4.2練習:手動清洗數據98 

5.4.3練習:試用另一種工具98 

5.5不常見的文件類型101 

5.6小結101 

第6章數據獲取與存儲103 

6.1並非所有數據生而平等103 

6.2真實性核查104 

6.3數據可讀性、數據清潔度和數據壽命105 

6.4尋找數據105 

6.4.1打電話105 

6.4.2美國政府數據106 

6.4.3全球政府和城市開放數據107 

6.4.4組織數據和非政府組織數據109 

6.4.5教育數據和大學數據109 

6.4.6醫學數據和科學數據109 

6.4.7眾包數據和API 110 

6.5案例研究:數據調查實例111 

6.5.1埃博拉病毒危機111 

6.5.2列車安全111 

6.5.3足球運動員的薪 112 

6.5.4童工112 

6.6數據存儲113 

6.7數據庫簡介113 

6.7.1關係型數據庫:MySQL和PostgreSQL 114 

6.7.2非關係型數據庫:NoSQL 116 

6.7.3用Python創建本地數據庫117 

6.8使用簡單文件118 

6.8 .1雲存儲和Python 118 

6.8.2本地存儲和Python 119 

6.9其他數據存儲方式119 

6.10小結119 

第7章數據清洗:研究、匹配與格式化121 

7.1為什麼要清洗數據121 

7.2數據清洗基礎知識122 

7.2 .1找出需要清洗的數據123 

7.2.2數據格式化131 

7.2.3找出離群值和不良數據135 

7.2.4找出重複值140 

7.2.5模糊匹配143 

7.2.6正則表達式匹配146 

7.2.7如何處理重複記錄150 

7.3小結151 

第8章數據清洗:標準化和腳本化153 

8.1數據歸一化和標準化153 

8.2數據存儲154 

8.3找到適合項目的數據清洗方法156 

8.4數據清洗腳本化157 

8.5用新數據測試170 

8.6小結172 

第9章數據探索和分析173 

9.1探索數據173 

9.1.1導入數據174 

9.1.2探索表函數179 

9.1.3聯 結多個數據集182 

9.1.4識別相關性186 

9.1.5找出離群值187 

9.1.6創建分組189 

9.1.7深入探索192 

9.2分析數據193 

9.2.1分離和聚焦數據194 

9.2.2你的數據在講什麼196 

9.2.3描述結論196 

9.2.4將結論寫成文檔197 

9.3小結197 

第10章展示數據199 

10.1避免講故事陷阱199 

10.1.1怎樣講故事200 

10.1.2了解聽眾200 

10.2可視化數據201 

10.2.1圖表201 

10.2.2時間相關數據207 

10.2.3地圖208 

10.2.4交互式元素211 

10.2.5文字212 

10.2.6圖片、視頻和插畫212 

10.3展示工具213 

10.4發布數據213 

10.4. 1使用可用站點213 

10.4.2開源平台:創建一個新網站215 

10.4.3 Jupyter(曾名IPythonnotebook) 216 

10.5小結219 

第11章網頁抓取:獲取並存儲網絡數據221 

11.1抓取什麼和如何抓取221 

11.2分析網頁223 

11.2.1檢視:標記結構224 

11.2.2網絡/時間線:頁面是如何加載的230 

11.2.3控制台:同JavaScript交互232 

11.2.4頁面的深入分析236 

11.3得到 面:如何通過互聯網發出請求237 

11.4使用BeautifulSoup讀取網頁238 

11.5使用lxml讀取網頁241 

11.6小結249 

…… 

第12章高級網頁抓取:屏幕抓取器與爬蟲251 

第13章應用編程接口286 

第14章自動化和規模化298 

第15章結論330 

附錄A編程語言對比334 

附錄B初學者的Python學習資源336 

附錄C學習命令行338 

附錄D高級Python設置349 

附錄E Python陷阱361 

附錄F IPython指南370 

附錄G使用亞馬遜網絡服務374 

關於作者378 

關於封面378