全棧數據之門 全栈数据之门

任柳江

買這商品的人也買了...

商品描述

本書以數據分析領域最熱的Python語言為主要線索,介紹了數據分析庫numpy、Pandas與機器學習庫scikit-learn,使用了可視化環境Orange 3來理解算法的一些細節。對於機器學習,既有常用算法KNN與Kmeans的應用,決策樹與隨機森林的實戰,還涉及常用特徵工程與深度學習中的自動編程器。在大數據Hadoop與Hive環境的基礎之上,使用Spark的ML/MLlib庫集成了前面的各部分內容,讓分佈式機器學習更容易。大量的工具與技能實戰的介紹將各部分融合成一個全棧的數據科學內容。

作者簡介

作者一直工作在數據處理與數據挖掘的第一線,具有豐富的理論知識和實踐經驗,且精通多種數據挖掘與分析的工具的使用,文筆也不錯,相信能為讀者奉獻一本質量上乘的佳作。
 

目錄大綱

0x1 Linux,自由之光/ 001 


0x10 Linux,你是我的眼/ 001 


0x11 Linux基礎,從零開始/ 003 
01 Linux之門/ 003 
02文件操作/ 004 
03權限管理/ 006 
04軟件安裝/ 008 
05實戰經驗/ 010 


0x12 Sed與Grep,文本處理/ 010 
01文本工具/ 010 
02 grep的使用/ 011 
03 grep家族/ 013 
04 sed的使用/ 014 
05綜合案例/ 016 


0x13數據工程,必備Shell / 018 
01 Shell分析/ 018 
02文件探索/ 019 
03內容探索/ 020 
04交差並補/ 020 
05其他常用的命令/ 021 
06批量操作/ 022 
07結語/ 025 


0x14 Shell快捷鍵, Emacs之門/ 025 
01提高效率/ 025 
02光標移動/ 026 
03文本編輯/ 027 
04命令搜索/ 028 
05 Emacs入門/ 029 
06 Emacs思維/ 031 


0x15緣起Linux,一入Mac誤終身/ 032 
01開源生萬物/ 032 
02有錢就換Mac / 032 
03程序員需求/ 033 
04非程序員需求/ 034 
05一入Mac誤終身/ 035 


0x16大成就者,集群安裝/ 036 
01離線安裝/ 036 
02 Host與SSH配置/ 03 7 
03 sudo與JDK環境/ 039 
04準備Hadoop包/ 040 
05開啟HTTP與配置源/ 041 
06安裝ambari-server / 041 
07後續服務安裝/ 042 
08結語/ 044 


0x2 Python,道法自然/ 045 


0x20 Python,靈犀一指/ 045 


0x21 Python基礎,興趣為王/ 047 
01第一語言/ 047 
02數據結構/ 047 
03文件讀寫/ 049 
04使用模塊/ 050 
05函數式編程/ 052 
06一道面試題/ 053 
07興趣驅動/ 055 


0x22喜新厭舊,2遷移3 / 056 
01新舊交替/ 056 
02基礎變化/ 057 
03編碼問題/ 058 
04其他變化/ 058 
05 2to3腳本/ 060 
06 PySpark配置/ 061 
07喜新厭舊/ 062 


0x23 Anaconda,IPython / 062 
01 Anaconda / 062 
02安裝與配置/ 063 
03 pip與源/ 064 
04 IPython與Jupyter / 065 
05結語/ 067 


0x24美不勝收,Python工具/ 067 
01緣起/ 067 
02調試與開發/ 068 
03排版與格式化/ 070 
04輔助工具/ 072 
05實用推薦/ 074 


0x25 numpy基礎,線性代數/ 075 
01 numpy的使用/ 075 
02索引與切片/ 076 
03變形與統計/ 078 
04矩陣運算/ 080 
05實用方法/ 083 
06結語/ 085 


0x26 numpy實戰,PCA降維/ 085 
01 PCA介紹/ 085 
02數據均值化/ 086 
03協方差矩陣/ 087 
04特徵值與向量/ 088 
05數據映射降維/ 089 
06 sklearn實現/ 090 


0x3大數據,其大無外/ 093 


0x30太大數據,極生兩儀/ 093 


0x31神像住世,Hadoop / 095 
01 Hadoop / 095 
02 HDFS / 096 
03角色與管理/ 097 
04文件操作/ 098 
05結語/ 100 


0x32分治之美,MapReduce / 100 
01 map與reduce函數/ 100 
02分而治之/ 102 
03 Hello,World / 103 
04 Streaming接口/ 105 


0x33 Hive基礎,蜂巢與倉庫/ 106 
01引言/ 106 
02 Hive接口/ 107 
03分區建表/ 108 
04分區機制/ 110 
05數據導入/導出/ 111 
06 Hive-QL / 112 
07結語/ 114 


0x34 Hive深入,實戰經驗/ 115 
01排序與分佈式/ 115 
02多表插入與mapjoin / 116 
03加載map-reduce腳本/ 117 
04使用第三方UDF / 119 
05實戰經驗/ 120 
06生成唯一ID / 121 


0x35 HBase庫,實時業務/ 122 
01理論基礎/ 122 
02 Shell操作/ 123 
03關 聯Hive表/ 126 
04數據導入/ 128 
05實用經驗/ 130  


0x36 SQL與NoSQL,Sqoop為媒/ 130 
01 SQL與NOSQL / 130 
02從MySQL導入HDFS / 131 
03增量導入/ 134 
04映射到Hive / 135 
05導入Hive表/ 136 
06從HDFS導出到MySQL / 137 
07從Hive導出到MySQL / 138  
 

0x4數據分析,見微知著/ 141 
 

0x40大數據分析,魯班為祖師/ 141

0x41 SQL技能,必備MySQL / 143 
01 SQL工具/ 143 
02基礎操作/ 144 
03查詢套路/ 145 
04 join查詢/ 146 
05 union與exists / 149 
06實戰經驗/ 151 
 
 

0x42快刀awk,斬亂數據/ 152 
01快刀/ 152 
02一二三要點/ 152 
03一個示例/ 154 
04應用與統計/ 154 
05斬亂麻/ 156 
 

0x43 Pandas,數據之框/ 157 
01數據為框/ 157 
02加載數據/ 158 
03行列索引/ 159 
04行列操作/ 161 
05合併聚合/ 163 
06迭代數據/ 164 
07結語/ 165 
 

0x44 Zeppelin,一統江湖/ 166 
01心潮澎湃/ 166 
02基本使用/ 168 
03 SQL與可視化/ 169 
04安裝Zeppelin / 172 
05配置Zeppelin / 173 
06數據安全/ 174 
07使用 心得/ 176 
 

0x45數據分組,聚合窗口/ 177 
01 MySQL聚合/ 177 
02 Spark聚合/ 178 
03非聚合字段/ 179 
04 Hive實現/ 180 
05 group_concat / 181 
06 Hive窗口函數/ 183 
07 DataFrame窗口/ 184 
08結語/ 185 


0x46全棧分析,六層內功/ 186 
01引言/ 186 
02 MySQL版本/ 186 
03 awk版本/ 187 
04 Python版本/ 188 
05 Hive版本/ 189 
06 map-reduce版本/ 190 
07 Spark版本/ 190 
08結語/ 191 


0x5機器學習,人類失控/ 193 


0x50機器學習,瑯琊論斷/ 193

 

0x51酸酸甜甜,Orange / 195 
01可視化學習/ 195 
02數據探索/ 196 
03模型與評估/ 199 
04組件介紹/ 200 
05與Python進行整合/ 202 
06結語/ 204  


0x52 sklearn,機器學習/ 205 
01 sklearn介紹/ 205 
02數據預處理/ 206 
03建模與預測/ 207 
04模型評估/ 209 
05模型持久化/ 210 
06三個層次/ 210  


0x53特徵轉換,量綱伸縮/ 211 
01特徵工程/ 211 
02獨熱編碼/ 212 
03 sklearn示例/ 213 
04標準化與歸一化/ 215 
05 sklearn與Spark實現/ 216 
06 語/ 219 
 


0x54描述統計,基礎指標/ 220 
01描述性統計/ 220 
02 Pandas實現/ 222 
03方差與協方差/ 223 
04 Spark-RDD實現/ 224 
05 DataFrame實現/ 226 
06 Spark-SQL實現/ 227 
07結語/ 227  


0x55模型評估,交叉驗證/ 228 
01測試與訓練/ 228 
02評價指標/ 229 
03交叉驗證/ 231 
04驗證數據/ 232 
05 OOB數據/ 233 


0x56文本特徵,詞袋模型/ 234 
01自然語言/ 234 
02中文分詞/ 235 
03詞袋模型/ 236 
04詞頻統計/ 237 
05 TF-IDF / 238 
06結語/ 239 


0x6算法預測,佔天卜地/ 241 


0x60命由己做,福自己求/ 241 


0x61近朱者赤,相親kNN / 243 
01樸素的思想/ 243 
02算法介紹/ 243 
03分類與回歸/ 244 
04 k與半徑/ 245 
05優化計算/ 246 
06實例應用/ 247 


0x62物以類聚,Kmeans / 248 
01算法描述/ 248 
02建立模型/ 249 
03理解模型/ 251 
04距離與相似性/ 252 
05降維與可視化/ 253 
06無監督學習/ 255 


0x63很傻很天真,樸素貝葉斯/ 257 
01樸素思想/ 257 
02概率公式 / 257 
03三種實現/ 258 
04 sklearn示例/ 260 
05樸素卻不傻/ 262 


0x64菩提之樹,決策姻緣/ 263 
01緣起/ 263 
02 Orange演示/ 264 
03 scikit-learn模擬/ 266 
04熵與基尼指數/ 267 
05決策過程分析/ 268 
06 Spark模擬/ 270 
07結語/ 271 

 

0x65隨機之美,隨機森林/ 271 
01樹與森林/ 271 
02處處隨機/ 273 
03 sklearn示例/ 274 
04 MLlib示例/ 275 
05特點與應用/ 276 


0x66自編碼器,深度之門/ 277 
01深度學習/ 277 
02特徵學習/ 278 
03自動編碼器/ 280 
04 Keras代碼/ 282 
05抗噪編碼器/ 283  


0x7 Spark,唯快不破/ 285 


0x70人生苦短,快用Spark / 285

 

0x71 PySpark之門,強者聯盟/ 287 
01全棧框架/ 287 
02環境搭建/ 288 
03分佈式部署/ 289 
04示例分析/ 290 
05兩類算子/ 292 
06 map與reduce / 293 
07 AMPLab的野心/ 294 

 
0x72 RDD算子,計算之魂/ 295 
01算子之道/ 295 
02獲取數據/ 296 
03過濾與排序/ 297 
04聚合數據/ 298 
05 join連接/ 299 
06 union與zip / 300 
07讀寫文件/ 301 
08結語/ 303 


0x73分佈式SQL,蝶戀飛舞/ 304 
01 SQL工具/ 304 
02命令行CLI / 304 
03讀Hive數據/ 305 
04將結果寫入Hive / 306 
05讀寫MySQL數據/ 307 
06讀寫三種文件/ 308 


0x74 DataFrame,三角之戀/ 310 
01 DataFrame / 310 
02生成數據框/ 311 
03合併與join / 313 
04 select操作/ 314 
05 SQL操作/ 315 
06自定義UDF / 316 
07三角之戀/ 318 


0x75神器之父,Scala入世/ 319 
01 Spark與Scala / 319 
02 Scala REPL / 320 
03編譯Scala / 321 
04 sbt編譯/ 322 
05示例分析/ 323 
06編譯提交/ 325 


0x76機器之心,ML套路/ 326 
01城市套路深/ 326 
02算法與特徵工程/ 327 
03管道工作流/ 328 
04 OneHotEncoder示例/ 329 
05 ML回歸實戰/ 331 
06特徵處理與算法/ 332 
07擬合與評估/ 334 


0x8數據科學,全棧智慧/ 337 


0x80才高八斗,共分天下/ 337

0x81自學數據,神蟒領舞/ 339 
01機器學習/ 339 
02語言領域/ 339 
03 Python數據生態/ 340 
04相關資料/ 341 
05書籍推薦/ 342 
06 感的職業/ 343 
 

0x82數據科學,七大技能/ 343 
01七大技能/ 343 
02 SQL與NoSQL技能/ 344 
03 Linux工具集/ 344 
04 Python或者R語言生態/ 345 
05 Hadoop與Spark生態/ 345 
06概率、統計與線性代數/ 346 
07機器學習與深度學習/ 346 
08業務及雜項/ 347 
09結語/ 347 
 

0x83大無所大,生態框架/ 348 
01計算生態/ 348 
02離線計算/ 348 
03交互分析/ 349 
04實時處理/ 350 
05算法挖掘/ 351 
06發行版本/ 352 
07其他工具/ 353 
 

0x84集體智慧,失控哲學/ 354 
01數據是寶/ 354 
02一分為二/ 355 
03回歸統一/ 356 
04聚少成多/ 356 
05你中有我/ 357 
06從小看大/ 358 
07大事化小/ 358 
08少即是多/ 359 


0x85一技之長,一生之用/ 359 
01一技之長/ 359 
02數據分析相關/ 360 
03 Python相關/ 360 
04 Hadoop相關/ 361 
05 Spark相關/ 361 
06模型相關/ 362 
07算法相關/ 362 
08一生之用/ 363 


0x86知識作譜,數據為棧/ 363 
01知識作譜/ 363 
02理論基礎/ 363 
03 Python/ R編程/ 364 
04分析與可視化/ 365 
05大數據/ 365 
06 ETL與特徵工程/ 366 
07機器學習與深度學習/ 366 
08工具與庫/ 367 
09全棧為用/ 367