Python數據分析與數據化運營 Python数据分析与数据化运营

宋天龍

  • 出版商: 機械工業
  • 出版日期: 2017-12-06
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • 頁數: 524
  • 裝訂: 平裝
  • ISBN: 7111584600
  • ISBN-13: 9787111584605
  • 相關分類: Data Science
  • 立即出貨 (庫存=1)

買這商品的人也買了...

商品描述

本書內容從邏輯上共分為兩大部分,第壹部分是有關數據分析類的主題,第二部分是有關數據化運營的主題。第壹部分的內容包括1/2/3/4章和附錄,主要介紹了Python和數據化運營的基本知識、數據來源獲取、數據預處理以及數據分析和挖掘的關鍵經驗。第二部分的內容包括5/6/7/8/9章的內容,分別介紹了會員運營、商品運營、流量運營和內容運營四個大主題,以及提升數據化運營價值度的方法。在每個數據化運營主題中都包含了基本知識、評估指標、應用場景、數據分析模型、數據分析小技巧、數據分析大實話以及2個應用案例。

作者簡介

宋天龍(Tony Song),大數據技術專家,歷任軟通動力集團大數據研究院數據總監、Webtrekk(德國優選的網站數據分析服務提供商)中國區技術和諮詢負責人、國美在線大數據中心經理。

擅長數據挖掘、建模、分析與運營,精通端到端的數據價值場景設計、業務需求轉換、數據結構梳理、數據建模與學習,以及數據工程交付。擁有豐富的數據項目工作經驗,參與過集團和企業級數據體系規劃、大數據產品開發、網站流量系統建設、網站智能推薦、企業大數據智能等大型數據工作項目。參與實施多個客戶案例,包括Webpower、德國OTTO集團電子商務(中國)、Esprit中國、豬八戒網、順豐優選、樂視商城、泰康人壽、酒仙網,國美在線、迪信通等。
著有《網站數據挖掘與分析:系統方法與商業實踐》《企業大數據系統構建實戰:技術、架構、實施與應用》。

目錄大綱

目錄Contents 
讚譽
前言

第1章Python和數據化運營1 
1.1用Python做數據化運營1 
1.1.1 Python是什麼1 
1.1.2數據化運營是什麼2 
1.1.3 Python用於數據化運營5 
1.2數據化運營所需的Python相關工具和組件6 
1.2.1 Python程序6 
1.2.2 Python IDE7 
1.2.3 Python第三方庫8 
1.2.4數據庫和客戶端16 
1.2.5 SSH遠程客戶端18 
1.3內容延伸:Python的OCR和TensorFlow18 
1.3.1 OCR工具:Tesseract-OCR18 
1.3.2機器學習框架—TensorFlow19 
1.4第一個用Python實現的數據化運營分析實例—銷售預測20 
1.4.1案例概述20 
1.4.2案例過程20 
1.4.3案例小結28 
1.5本章小結28 

第2章數據化運營的數據來源31 
2.1數據化運營的數據來源類型31 
2.1.1數據文件31 
2.1.2數據庫32 
2.1.3 API33 
2.1.4流式數據34
2.1.5外部公開數據34 
2.1.6其他35 
2.2使用Python獲取運營數據35 
2.2.1從文本文件讀取運營數據35 
2.2.2從Excel獲取運營數據46 
2.2.3從關係型數據庫MySQL讀取運營數據48 
2.2.4從非關係型數據庫MongoDB讀取運營數據56 
2.2.5從API獲取運營數據59 
2.3內容延伸:讀取非結構化網頁、文本、圖像、視頻、語音64 
2.3.1從網頁中爬取運營數據64 
2.3.2讀取非結構化文本數據65 
2.3.3讀取圖像數據65 
2.3.4讀取視頻數據68 
2.3.5讀取語音數據70 
2.4本章小結75 

第3章11條數據化運營不得不知道的數據預處理經驗76 
3.1數據清洗:缺失值、異常值和重複值的處理76 
3.1.1數據列缺失的4種處理方法76 
3.1.2不要輕易拋棄異常數據78 
3.1.3數據重複就需要去重嗎79 
3.1.4代碼實操:Python數據清洗81 
3.2將分類數據和順序數據轉換為標誌變量89 
3.2.1分類數據和順序數據是什麼89 
3.2.2運用標誌方法處理分類和順 序數據90 
3.2.3代碼實操:Python標誌轉換90
3.3大數據時代的數據降維94 
3.3.1需要數據降維的情況94 
3.3.2基於特徵選擇的降維94 
3.3.3基於維度轉換的降維96 
3.3.4代碼實操:Python數據降維97 
3.4解決樣本類別分佈不均衡的問題100 
3.4.1哪些運營場景中容易出現樣本不均衡100 
3.4.2通過過抽樣和欠抽樣解決樣本不均衡101 
3.4.3通過正負樣本的懲罰權重解決樣本不均衡101 
3.4.4通過組合/集成方法解決樣本不均衡102 
3.4.5通過特徵選擇解決樣本不均衡102 
3.4.6代碼實操:Python處理樣本不均衡102 
3.5如何解決運營數據源的衝突問題106 
3.5.1為什麼會出現多數據源的衝突107 
3.5.2如何應對多數據源的衝突問題109 
3.6數據化運營要抽樣還是全量數據109 
3.6.1什麼時候需要抽樣110 
3.6.2如何進行抽樣110 
3.6 .3抽樣需要注意的幾個問題111 
3.6.4代碼實操:Python數據抽樣113 
3.7解決運營數據的共線性問題116 
3.7.1如何檢驗共線性117 
3.7.2 解決共線性的5種常用方法117 
3.7.3代碼實操:Python處理共線性問題118
3.8有關相關性分析的混沌120 
3.8.1相關和因果是一回事嗎120 
3.8.2相關係數低就是不相關嗎121 
3.8.3代碼實操:Python相關性分析121 
3.9標準化,讓運營數據落入相同的範圍122 
3.9.1實現中心化和正態分佈的Z-Score122 
3.9.2實現歸一化的Max-Min123 
3.9.3用於稀疏數據的MaxAbs123 
3.9.4針對離群點的RobustScaler123 
3.9. 5代碼實操:Python數據標準化處理123 
3.10離散化,對運營數據做邏輯分層126 
3.10.1針對時間數據的離散化127 
3.10.2針對多值離散數據的離散化127 
3.10.3針對連續數據的離散化127 
3.10.4針對連續數據的二值化128 
3.10.5代碼實操:Python數據離散化處理128 
3.11數據處理應該考慮哪些運營業務因素133 
3.11.1考慮固定和突發運營週期133 
3.11 .2考慮運營需求的有效性134 
3.11.3考慮交付時要貼合運營落地場景134 
3.11.4不要忽視業務專家經驗135 
3.11.5考慮業務需求的變動因素136 
3.12內 延伸:非結構化數據的預處理137
3.12.1網頁數據解析137 
3.12.2網絡用戶日誌解析144 
3.12.3圖像的基本預處理148 
3.12.4自然語言文本預處理154 
3.13本章小結157
 
第4章跳過運營數據分析和挖掘的“大坑”159 
4.1聚類分析159 
4.1.1當心數據異常對聚類結果的影響160 
4.1.2超大數據量時應該放棄K均值算法160 
4.1.3聚類不僅是建模的終點,更是重要的中間預處理過程162 
4.1.4高維數據上無法應用聚類嗎163 
4.1.5如何選擇聚類分析算法164 
4.1.6代碼實操:Python聚類分析164 
4.2回歸分析172 
4.2.1注意回歸自變量之間的共線性問題172 
4.2.2相關係數、判定係數和回歸係數之間到底什麼關係172 
4.2.3判定係數是否意味著相應的因果聯繫173 
4.2.4注意應用回歸模型時研究自變量是否產生變化173 
4.2.5如何選擇回歸分析算法174 
4.2.6代碼實操:Python回歸分析174 
4.3分類分析183 
4.3.1防止分類模型的過擬合問題183 
4.3.2使用關聯算 做分類分析183 
4.3.3用分類分析來提煉規則、提取變量、處理缺失值184