數據天才:數據科學家修煉之道 数据天才:数据科学家修炼之道

文森特·格蘭維爾 (Vincent Granville)

買這商品的人也買了...

商品描述

《數據天才:數據科學家修煉之道》內容提要
這是一本跟數據科學和數據科學家有關的“手冊”,它還包含傳統統計學、編程或電腦科學教科書中所沒有的信息。
《數據天才:數據科學家修煉之道》有3個組成部分:一是多層次地討論數據科學是什麽,以及數據科學涉及哪些其他學科;二是數據科學的技術應用層面,包括教程和案例研究;三是給正在從業和有抱負的數據科學家介紹一些職業資源。《數據天才:數據科學家修煉之道》中有很多職業和培訓相關資源(如數據集、網絡爬蟲源代碼、數據視頻和如何編寫API),所以借助《數據天才:數據科學家修煉之道》,你現在就可以開始數據科學實踐,並快速地提升你的職業水平。
《數據天才:數據科學家修煉之道》是寫給數據科學家和相關專業人士的(如業務分析師、電腦科學家、軟件工程師、數據工程師和統計學家),也適合有興趣轉投大數據科學事業的人閱讀。

作者簡介

作者:(美)Vincent Granville(文森特·格蘭維爾)譯者:吳博

Vincent Granville博士是一名富有遠見的數據科學家,有15年大數據、預測建模、數字分析和業務分析的經驗。Vincent在評分技術、欺詐檢測和網絡流量優化及增長等領域,是舉世公認的權威專家。在過去的10年中,他曾與Visa一起研究實時信用卡欺詐檢測,與CNET一起研究廣告組合優化,與Microsoft(微軟公司)一起研究“改變點檢測”,與Wells Fargo(富國銀行)一起研究在線用戶體驗,與InfoSpace一起研究搜索智能,與eBay一起研究自動競價,與各大搜索引擎、廣告網絡和大型廣告客戶一起研究點擊欺詐檢測。Vincent也管理著LinkedIn上最大的“大數據及分析數據科學家”小組,該小組擁有超過100 000名成員。最近,Vincent推出數據科學中心(Data Science Center)這個大數據、業務分析和數據科學界的領先社區。Vincent曾是劍橋大學和美國國家統計科學學院的博士後。他曾入圍沃頓商業計劃競賽和比利時數學奧林匹克的決賽。Vincent已經在統計期刊上發表了40篇論文,並且是許多國際會議的受邀演講嘉賓。他還開發了一種新的數據挖掘技術,被稱為隱性決策樹,他還擁有多項專利,是發表數據科學書籍的第一人,並籌集了600萬美元的創業啟動資金。根據福布斯的排名,Vincent是大數據領域前20位有影響力的人物,被VentureBeat、MarketWatch和美國有線新聞網(CNN)專門報導。Vincent的Twitter賬號為@Analyticbridge。

吳博:利茲大學博士後,具備多年機器學習研發、數據科學從業經驗。曾任愛立信大數據高級研究員,多家公司數據科學家及數據變現業務負責人。現任深圳市宜遠智能科技有限公司創始人。張曉峰:哈爾濱工業大學深圳研究生院計算機科學與技術學院副教授、博士生導師,主要研究方向為數據挖掘、隱私保護和機器學習等。曾在北大方正研究院、香港大學電子技術研究所工作。主持包括國家自然科學基金面上項目,以及其他省/市縱向、橫向課題十餘項。已在國內外重要學術刊物與會議上發表SCI/EI索引論文40餘篇。季春霖:深圳光啟高等理工研究院聯合創始人,副院長;深圳市統計學會副會長;哈佛大學博士後,杜克大學統計學博士,劍橋大學碩士;廣東省自然科學基金傑青項目獲得者;發表包括Science在內的論文60餘篇,授權專利400餘項。熱衷於貝葉斯統計學及其應用。

目錄大綱

第1章數據科學是什麼1 

真偽數據科學對比2 
偽數據科學的兩個例子5 
新大學的面貌7 
數據科學家10 
數據科學家與數據工程師10 
數據科學家與統計學家12 
數據科學家與業務分析師13 
13個真實世界情景中的數據科學應用14 
情景1:國家對烈性酒銷售的壟斷結束後,DUI(酒後駕駛)逮捕量減少15 
情景2:數據科學與直覺17 
情景3:數據故障將數據變成亂碼19 
情景4:異常空間的回歸21 
情景5:分析與誘導在提升銷量上有何不同價值22 
情景6:關於隱藏數據24 
情景7:汽油中的鉛會導致高犯罪率。真的嗎25 
情景8:波音787(夢幻客機)問題26 
情景9:NLP的7個棘手句子27 
情景10:數據科學家決定著我們所吃的食品28 
情景11:用較好的相關性增加亞馬遜的銷售量30 
情景12:檢測Facebook上的假檔案或假“喜歡”數32 
情景13:餐廳的分析33 
數據科學的歷史、開拓者和現代趨勢33 
統計學將會復興34 
歷史與開拓者36 
現代的趨勢38 
最近的問答討論40 
總結44 

第2章大數據的獨特性45 
兩個大數據的問題45 
大數據“詛咒” 45 
數據快速流動問題50 
大數據技術示例56 
大數據問題是數據科學所面臨挑戰的縮影56 
大規模數據集的聚類和分類58 
1億行的Excel 63 
MapReduce不能做什麼67 
問題67 
3種解決方案68 
結論:何時使用MapReduce 69 
溝通問題70 
數據科學:統計學的終結72 
8種最差的預測建模技術72 
把計算機科學、統計學和行業專業知識結合在一起74 
大數據生態系統78 
總結79 

第3章成為一名數據科學家80 
數據科學 家的主要特徵80 
數據科學家的職能80 
橫向與縱向數據科學家83 
數據科學家的類型86 
偽數據科學家86 
自學成才的數據科學家86 
業餘數據科學家87 
極限數據科學家89 
數據科學家人群特徵90 
數據科學方面的培訓91 
大學課程91 
公司和協會培訓項目95 
免費培訓項目96 
數據科學家職業道路98 
獨立顧問98 
創業者105 
總結118 

第4章數據科學的技術(I) 119 
新型指標120 
優化數字營銷活動的指標121 
欺詐檢測的指標122 
選擇合適的分析工具124 
分析軟件124 
可視化工具125 
實時產品126 
編程語言128 
可視化128 
用R生成數據視頻129 
更複雜的視頻133 
無模型的統計建模134 
無模型的統計建模是什麼135 
該算法是如何工作的135 
源代碼生成數據集137 
三類指標:中心性、波動性、顛簸性137 
中心性、波動性和顛簸性之間的關係138 
定義顛簸性138 
在Excel中計算顛簸性139 
使用顛簸係數141 
大數據的統計聚類141 
大數據的相關性和擬合 143 
一系列新的秩相關性146 
漸近分佈與歸一化148 
計算複雜度152 
計算q(n) 152 
理論上的解決方案155 
結構係數156 
確定簇的數量157 
方法157 
例子158 
網絡拓撲映射159 
安全通信:數據加密163 
總結166 

第5章數據科學的技術(II) 167 
數據字典168 
什麼是數據字典168 
建立數據字典169 
隱性決策樹169 
實現方法171 
示例:互聯網流量打分173 
結論175 
與模型無關的置信區間175 
方法175 
分析橋第一定理176 
應用177 
源代碼178 
隨機數179 
解決問題的4個辦法181 
擁有超強直覺能力的業務分析師的直觀法182 
軟件工程師的蒙特卡洛模擬法182 
統計學家的統計建模方法183 
計算機科學家的大數據方法183 
因果關係和相關性183 
怎樣檢測因果關係184 
數據科學項目的生命週期186 
預測模型的錯誤189 
邏輯相關回歸191 
變量之間的相互作用191 
一階近似191 
二階近似193 
用Excel進行回歸分析195 
實驗設計196 
有趣的指標196 
把患者分成不同的人群 行治療196 
私人定制的治療197 
分析即服務和應用程序接口198 
工作原理199 
實施案例199 
關鍵詞相關的API的源代碼200 
其他主題204 
當數據庫改變時,保存好數值204 
優化網絡爬蟲205 
哈希連接206 
用於模擬簇的簡單源代碼207 
Hadoop和大數據的新型合成方差208 
Hadoop和MapReduce的介紹208 
綜合指標209 
Hadoop、數值的和統計的穩定性210 
方差的抽象概念211 
一個新的大數據定理213 
平移不變性的度量標準214 
實現:通信和計算成本214 
最終意見215 
總結215 

第6章數據科學應用案例研究217 
股票市場217 
使回報率提高500%的模式217 
優化統計交易策略220 
股票交易的API:統計模型222 
股票交易的API:具體實現225 
股票市場模擬226 
些許數學知識229 
新趨勢231 
加密232 
數據科學應用:隱寫術232 
好的電子郵件加密236 
驗證碼破解239 
欺詐檢測240 
點擊欺詐241 
連續點擊評分與二進制欺詐/非欺詐242 
數學模型與基準244 
虛假轉化產生的 偏差245 
一些誤解246 
統計面臨的挑戰246 
點擊評分優化關鍵詞出價247 
組合優化自動快速的特徵選擇249 
特徵的預測能力:交叉驗證250 
勾連檢測和殭屍網絡的關聯規則檢測254 
模式檢測的極值理論255 
數字分析256 
在線廣告:到達率和頻率的計算公式256 
電子郵件營銷:提高300%的性能257 
在7天內優化關鍵詞廣告宣傳活動258 
自動新聞提要優化260 
用bit.ly進行競爭情報分析261 
測量Twitter哈希標籤(hashtag)的收益263 
用3個修補方法提升谷歌搜索267 
改進相關性的算法270 
廣告循環問題272 
雜項273 
簡單模型會獲得更好的銷售預測273 
更好的醫療欺詐檢測275 
歸因模型276 
預測隕石撞擊277 
在路口停車場收集數據281 
數據科學的其他應用282 
總結282 

第7章踏上你的數據科學職業之路283 
面試問題283 
關於工作經驗的問題283 
技術問題285 
一般性問題286 
關於數據科學項目的問題288 
測試你自己的視覺和分析思維291 
通 過肉眼的檢測模式292 
識別偏差294 
誤導性的時間序列和隨機遊走295 
從統計學家到數據科學家296 
數據科學家也是統計從業人員297 
誰應該給數據科學家教統計學298 
僱傭問題298 
數據科學家與數據架構師密切合作299 
誰應該參與戰略思考299 
兩種類型的統計學家300 
大數據與取樣301 
數據科學家的分類302 
數據科學最流行的技能集合302 
LinkedIn上的頂級數據科學家306 
400個數據科學家職位頭銜309 
薪酬調查311 
根據技能和位置的薪酬分類312 
創建自己的薪酬調查表316 
總結317 
第8章數據科學資源318 
專業資源318 
數據集318 
書籍319 
會議與組織322 
網站324 
概念定義324 
職業建設資源327 
招聘數據科學家的公司328 
數據科學招聘廣告的樣本329 
簡歷樣本329 
總結331