數據科學實戰 (Doing Data Science) 数据科学实战

舒特 (Rachel Schutt), 奧尼爾 (Cathy O'Neil)

買這商品的人也買了...

商品描述

本書脫胎於哥倫比亞大學“數據科學導論”課程的教學講義,它界定了數據科學的研究範疇,是一本註重人文精神,多角度、全方位、深入介紹數據科學的實用指南,堪稱大數據時代的實戰寶典。本書旨在讓讀者能夠舉一反三地解決重要問題,內容包括:數據科學及工作流程、統計模型與機器學習算法、信息提取與統計變量創建、數據可視化與社交網絡、預測模型與因果分析、數據預處理與工程方法。另外,本書還將帶領讀者展望數據科學未來的發展。

作者簡介

Rachel Schutt 美國新聞集團旗下數據科學部門高級副總裁、哥倫比亞大學統計系兼職教授、約翰遜實驗室高級研究科學家,同時也是哥倫比亞大學數據科學及工程研究所教育委員會的發起人之一。她曾在谷歌研究院工作數年,負責設計算法原型並通過建模理解用戶行為。

目錄大綱

作者介紹
關於封面圖
前言

第1章 簡介:什麼是數據科學
1.1大數據和數據科學的喧囂
1.2沖出迷霧
1.3為什麼是現在
1.4數據科學的現狀和歷史
1.5數據科學的知識結構
1.6思維實驗:元定義
1.7什麼是數據科學家
1.7.1學術界對數據科學家的定義
1.7.2工業界對數據科學家的定義

第2章 統計推斷、探索性數據分析和數據科學工作流程
2.1大數據時代的統計學思考
2.1.1統計推斷
2.1.2總體和樣本
2.1.3大數據的總體和樣本
2.1.4大數據意味着大膽的假設
2.1.5建模
2.2探索性數據分析
2.2.1探索性數據分析的哲學
2.2.2練習:探索性數據分析
2.3數據科學的工作流程
2.4思維實驗:如何模擬混沌
2.5案例學習:RealDirect
2.5.1RealDirect是如何賺錢的
2.5.2練一練:RealDirect公司的數據策略

第3章 算法
3.1機器學習算法
3.2三大基本算法
3.2.1線性回歸模型
3.2.2k近鄰模型(k—NN)
3.2.3K均值算法
3.3練習:機器學習算法基礎
3.4總結
3.5思維實驗:關於統計學家的自動化

第4章 垃圾郵件過濾器、朴素貝葉斯與數據清理
4.1思維實驗:從實例中學習
4.1.1線性回歸為何不適用
4.1.2k近鄰效果如何
4.2朴素貝葉斯模型
4.2.1貝葉斯法則
4.2.2個別單詞的過濾器
4.2.3直通朴素貝葉斯
4.3拉普拉斯平滑法
4.4對比朴素貝葉斯和k近鄰
4.5Bash代碼示例
4.6網頁抓取:API和其他工具
4.7Jake的練習題:文章分類問題中的朴素貝葉斯模型

第5章 邏輯回歸
5.1思維實驗
5.2分類器
5.2.1運行時間
5.2.2你自己
5.2.3模型的可解釋性
5.2.4可擴展性
5.3邏輯回歸:一個來自M6D的真實案例研究
5.3.1點擊模型
5.3.2模型背后
5.3.3α和β的參數估計
5.3.4牛頓法
5.3.5隨機梯度下降法
5.3.6操練
5.3.7模型評價
5.4練習題

第6章 時間戳數據與金融建模
6.1Kyle Teague與GetGlue公司
6.2時間戳
6.2.1探索性數據分析(EDA)
6.2.2指標和新變量
6.2.3下一步怎麼做
6.3輪到Cathy O’’Neill了
6.4思維實驗
6.5金融建模
6.5.1樣本期內外以及因果關系
6.5.2金融數據處理
6.5.3對數收益率
6.5.4實例:標准普爾指數
6.5.5如何衡量波動率
6.5.6指數平滑法
6.5.7金融模型的反饋
6.5.8聊聊回歸模型
6.5.9先驗信息量
6.5.10一個小例子
6.6練習:GetGlue提供的時間戳數據

第7章 從數據到結論
7.1William Cukierski
7.1.1背景介紹:數據科學競賽
7.1.2背景介紹:眾包模式
7.2Kaggle模式
7.2.1Kaggle的參賽者
7.2.2Kaggle的客戶
7.3思維實驗:關於作業自動評分系統
7.4特征選擇
7.4.1例子:留住用戶
7.4.2過濾型
7.4.3包裝型
7.4.4決策樹與嵌入型變量選擇
7.4.5熵
7.4.6決策樹算法
7.4.7如何在決策樹模型中處理連續性變量
7.4.8隨機森林
7.4.9用戶黏性:模型的預測能力與可解釋性
7.5David Huffaker:谷歌社會學研究的新方法
7.5.1從描述性統計到預測模型
7.5.2谷歌的社交研究
7.5.3隱私保護
7.5.4思維實驗:如何消除用戶的顧慮

第8章 構建面向大量用戶的推薦引擎
8.1一個真實的推薦引擎
8.1.1最近鄰算法回顧
8.1.2最近鄰模型的已知問題
8.1.3超越近鄰模型:基於機器學習的分類模型
8.1.4高維度問題
8.1.5奇異值分解(SVD)
8.1.6關於SVD的重要特性
8.1.7主成分分析(PCA)
8.1.8交替最小二乘法
8.1.9固定矩陣V,更新矩陣U
8.1.10關於這些算法的一點思考
8.2思維實驗:如何過濾模型中的泡沫
8.3練習:搭建自己的推薦系統

第9章 數據可視化與欺詐偵測
9.1數據可視化的歷史
9.1.1Gabriel Tarde
9.1.2Mark的思維實驗
9.2到底什麼是數據科學
9.2.1Processing
9.2.2Franco Moretti
9.3一個數據可視化的方案實例
9.4Mark的數據可視化項目
9.4.1《紐約時報》大廳里的可視化:Moveable Type
9.4.2屏幕上的生命:Cascade可視化項目
9.4.3Cronkite廣場項目
9.4.4eBay與圖書網購
9.4.5公共劇場里的「莎士比亞機」
9.4.6這些展覽的目的是什麼
9.5數據科學和風險
9.5.1關於Square公司
9.5.2支付風險
9.5.3模型效果的評估問題
9.5.4建模小貼士
9.6數據可視化在Square
9.7Ian的思維實驗
9.8關於數據可視化
……
第10章 社交網絡與數據新聞學
第11章 因果關系研究
第12章 流行病學
第13章 從競賽中學到的:數據泄漏和模型評價
第14章 數據工程:MapReduce、Pregel、Hadoop
第15章 聽聽學生們怎麼說
第16章 下一代數據科學家、自大狂和職業道德