全棧數據之門全栈数据之门

任柳江

出版商: 電子工業
出版日期: 2017-04-01
定價: $474
售價: 8.5 折 $402
語言: 簡體中文
頁數: 368
裝訂: 平裝
ISBN: 712130905X
ISBN-13: 9787121309052
相關分類: Python、Machine Learning、Spark

立即出貨 (庫存 < 3)

買這商品的人也買了...

~~$420~~ $357

CI (Continuous integration) 關鍵技術—使用 Jenkins
~~$580~~ $458

並行之美學－撰寫平行應用程式的新手指南 (The Art of Concurrency: A Thread Monkey's Guide to Writing Parallel Applications)
$534

利用 Python 進行數據分析 (Python for Data Analysis)
$249

Redis 入門指南, 2/e
~~$648~~ $615

機器學習
$474

深入理解機器學習：從原理到算法 (Understanding Machine Learning : From Theory to Algorithms)
~~$520~~ $410

Spark 學習手冊 (Learning Spark: Lightning-Fast Big Data Analysis)
~~$980~~ $774

Hadoop 技術手冊, 4/e (Hadoop: The Definitive Guide, 4/e)
~~$480~~ $408

資料智慧化：利用資料科學，將資訊化為創見
~~$500~~ $425

Python 自動化的樂趣｜搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)
~~$580~~ $458

演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)
$293

Python 網絡爬蟲實戰
$294

命令行中的數據科學 (Data Science at the Command Line:Facing the Future with Time-Tested Tools)
$418

算法圖解 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
$197

最簡單的圖形與最複雜的信息:如何有效建立你的視覺思維
$474

Python 地理空間分析指南, 2/e (Learning Geospatial Analysis with Python, 2/e)
$474

Spark GraphX實戰
~~$450~~ $355

CSS 重構 (CSS Refactoring: Architect Your Stylesheets for Success)
~~$900~~ $765

CCNP Routing and Switching TSHOOT 300-135 專業認證手冊 (CCNP Routing and Switching TSHOOT 300-135 Official Cert Guide)
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
~~$390~~ $195

寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$900~~ $765

Cisco CCENT/CCNA ICND1 100-105 專業認證手冊 (Cisco CCENT/CCNA ICND1 100-105 Official Cert Guide)
~~$780~~ $616

Python 資料科學學習手冊 (Python Data Science Handbook: Essential Tools for Working with Data)
$414

Python數據分析從入門到精通
~~$380~~ $323

機器學習入門｜從玻爾茲曼機械學習到深度學習

商品描述

本書以數據分析領域最熱的Python語言為主要線索，介紹了數據分析庫numpy、Pandas與機器學習庫scikit-learn，使用了可視化環境Orange 3來理解算法的一些細節。對於機器學習，既有常用算法KNN與Kmeans的應用，決策樹與隨機森林的實戰，還涉及常用特徵工程與深度學習中的自動編程器。在大數據Hadoop與Hive環境的基礎之上，使用Spark的ML/MLlib庫集成了前面的各部分內容，讓分佈式機器學習更容易。大量的工具與技能實戰的介紹將各部分融合成一個全棧的數據科學內容。

作者簡介

作者一直工作在數據處理與數據挖掘的第一線，具有豐富的理論知識和實踐經驗，且精通多種數據挖掘與分析的工具的使用，文筆也不錯，相信能為讀者奉獻一本質量上乘的佳作。

目錄大綱

0x1 Linux，自由之光/ 001

0x10 Linux，你是我的眼/ 001

0x11 Linux基礎，從零開始/ 003
01 Linux之門/ 003
02文件操作/ 004
03權限管理/ 006
04軟件安裝/ 008
05實戰經驗/ 010

0x12 Sed與Grep，文本處理/ 010
01文本工具/ 010
02 grep的使用/ 011
03 grep家族/ 013
04 sed的使用/ 014
05綜合案例/ 016

0x13數據工程，必備Shell / 018
01 Shell分析/ 018
02文件探索/ 019
03內容探索/ 020
04交差並補/ 020
05其他常用的命令/ 021
06批量操作/ 022
07結語/ 025

0x14 Shell快捷鍵， Emacs之門/ 025
01提高效率/ 025
02光標移動/ 026
03文本編輯/ 027
04命令搜索/ 028
05 Emacs入門/ 029
06 Emacs思維/ 031

0x15緣起Linux，一入Mac誤終身/ 032
01開源生萬物/ 032
02有錢就換Mac / 032
03程序員需求/ 033
04非程序員需求/ 034
05一入Mac誤終身/ 035

0x16大成就者，集群安裝/ 036
01離線安裝/ 036
02 Host與SSH配置/ 03 7
03 sudo與JDK環境/ 039
04準備Hadoop包/ 040
05開啟HTTP與配置源/ 041
06安裝ambari-server / 041
07後續服務安裝/ 042
08結語/ 044

0x2 Python，道法自然/ 045

0x20 Python，靈犀一指/ 045

0x21 Python基礎，興趣為王/ 047
01第一語言/ 047
02數據結構/ 047
03文件讀寫/ 049
04使用模塊/ 050
05函數式編程/ 052
06一道面試題/ 053
07興趣驅動/ 055

0x22喜新厭舊，2遷移3 / 056
01新舊交替/ 056
02基礎變化/ 057
03編碼問題/ 058
04其他變化/ 058
05 2to3腳本/ 060
06 PySpark配置/ 061
07喜新厭舊/ 062

0x23 Anaconda，IPython / 062
01 Anaconda / 062
02安裝與配置/ 063
03 pip與源/ 064
04 IPython與Jupyter / 065
05結語/ 067

0x24美不勝收，Python工具/ 067
01緣起/ 067
02調試與開發/ 068
03排版與格式化/ 070
04輔助工具/ 072
05實用推薦/ 074

0x25 numpy基礎，線性代數/ 075
01 numpy的使用/ 075
02索引與切片/ 076
03變形與統計/ 078
04矩陣運算/ 080
05實用方法/ 083
06結語/ 085

0x26 numpy實戰，PCA降維/ 085
01 PCA介紹/ 085
02數據均值化/ 086
03協方差矩陣/ 087
04特徵值與向量/ 088
05數據映射降維/ 089
06 sklearn實現/ 090

0x3大數據，其大無外/ 093

0x30太大數據，極生兩儀/ 093

0x31神像住世，Hadoop / 095
01 Hadoop / 095
02 HDFS / 096
03角色與管理/ 097
04文件操作/ 098
05結語/ 100

0x32分治之美，MapReduce / 100
01 map與reduce函數/ 100
02分而治之/ 102
03 Hello,World / 103
04 Streaming接口/ 105

0x33 Hive基礎，蜂巢與倉庫/ 106
01引言/ 106
02 Hive接口/ 107
03分區建表/ 108
04分區機制/ 110
05數據導入/導出/ 111
06 Hive-QL / 112
07結語/ 114

0x34 Hive深入，實戰經驗/ 115
01排序與分佈式/ 115
02多表插入與mapjoin / 116
03加載map-reduce腳本/ 117
04使用第三方UDF / 119
05實戰經驗/ 120
06生成唯一ID / 121

0x35 HBase庫，實時業務/ 122
01理論基礎/ 122
02 Shell操作/ 123
03關聯Hive表/ 126
04數據導入/ 128
05實用經驗/ 130

0x36 SQL與NoSQL，Sqoop為媒/ 130
01 SQL與NOSQL / 130
02從MySQL導入HDFS / 131
03增量導入/ 134
04映射到Hive / 135
05導入Hive表/ 136
06從HDFS導出到MySQL / 137
07從Hive導出到MySQL / 138

0x4數據分析，見微知著/ 141

0x40大數據分析，魯班為祖師/ 141

0x41 SQL技能，必備MySQL / 143
01 SQL工具/ 143
02基礎操作/ 144
03查詢套路/ 145
04 join查詢/ 146
05 union與exists / 149
06實戰經驗/ 151

0x42快刀awk，斬亂數據/ 152
01快刀/ 152
02一二三要點/ 152
03一個示例/ 154
04應用與統計/ 154
05斬亂麻/ 156

0x43 Pandas，數據之框/ 157
01數據為框/ 157
02加載數據/ 158
03行列索引/ 159
04行列操作/ 161
05合併聚合/ 163
06疊代數據/ 164
07結語/ 165

0x44 Zeppelin，一統江湖/ 166
01心潮澎湃/ 166
02基本使用/ 168
03 SQL與可視化/ 169
04安裝Zeppelin / 172
05配置Zeppelin / 173
06數據安全/ 174
07使用心得/ 176

0x45數據分組，聚合窗口/ 177
01 MySQL聚合/ 177
02 Spark聚合/ 178
03非聚合字段/ 179
04 Hive實現/ 180
05 group_concat / 181
06 Hive窗口函數/ 183
07 DataFrame窗口/ 184
08結語/ 185

0x46全棧分析，六層內功/ 186
01引言/ 186
02 MySQL版本/ 186
03 awk版本/ 187
04 Python版本/ 188
05 Hive版本/ 189
06 map-reduce版本/ 190
07 Spark版本/ 190
08結語/ 191

0x5機器學習，人類失控/ 193

0x50機器學習，瑯琊論斷/ 193

0x51酸酸甜甜，Orange / 195
01可視化學習/ 195
02數據探索/ 196
03模型與評估/ 199
04組件介紹/ 200
05與Python進行整合/ 202
06結語/ 204

0x52 sklearn，機器學習/ 205
01 sklearn介紹/ 205
02數據預處理/ 206
03建模與預測/ 207
04模型評估/ 209
05模型持久化/ 210
06三個層次/ 210

0x53特徵轉換，量綱伸縮/ 211
01特徵工程/ 211
02獨熱編碼/ 212
03 sklearn示例/ 213
04標準化與歸一化/ 215
05 sklearn與Spark實現/ 216
06 語/ 219

0x54描述統計，基礎指標/ 220
01描述性統計/ 220
02 Pandas實現/ 222
03方差與協方差/ 223
04 Spark-RDD實現/ 224
05 DataFrame實現/ 226
06 Spark-SQL實現/ 227
07結語/ 227

0x55模型評估，交叉驗證/ 228
01測試與訓練/ 228
02評價指標/ 229
03交叉驗證/ 231
04驗證數據/ 232
05 OOB數據/ 233

0x56文本特徵，詞袋模型/ 234
01自然語言/ 234
02中文分詞/ 235
03詞袋模型/ 236
04詞頻統計/ 237
05 TF-IDF / 238
06結語/ 239

0x6算法預測，佔天蔔地/ 241

0x60命由己做，福自己求/ 241

0x61近朱者赤，相親kNN / 243
01樸素的思想/ 243
02算法介紹/ 243
03分類與回歸/ 244
04 k與半徑/ 245
05優化計算/ 246
06實例應用/ 247

0x62物以類聚，Kmeans / 248
01算法描述/ 248
02建立模型/ 249
03理解模型/ 251
04距離與相似性/ 252
05降維與可視化/ 253
06無監督學習/ 255

0x63很傻很天真，樸素貝葉斯/ 257
01樸素思想/ 257
02概率公式 / 257
03三種實現/ 258
04 sklearn示例/ 260
05樸素卻不傻/ 262

0x64菩提之樹，決策姻緣/ 263
01緣起/ 263
02 Orange演示/ 264
03 scikit-learn模擬/ 266
04熵與基尼指數/ 267
05決策過程分析/ 268
06 Spark模擬/ 270
07結語/ 271

0x65隨機之美，隨機森林/ 271
01樹與森林/ 271
02處處隨機/ 273
03 sklearn示例/ 274
04 MLlib示例/ 275
05特點與應用/ 276

0x66自編碼器，深度之門/ 277
01深度學習/ 277
02特徵學習/ 278
03自動編碼器/ 280
04 Keras代碼/ 282
05抗噪編碼器/ 283

0x7 Spark，唯快不破/ 285

0x70人生苦短，快用Spark / 285

0x71 PySpark之門，強者聯盟/ 287
01全棧框架/ 287
02環境搭建/ 288
03分佈式部署/ 289
04示例分析/ 290
05兩類算子/ 292
06 map與reduce / 293
07 AMPLab的野心/ 294

0x72 RDD算子，計算之魂/ 295
01算子之道/ 295
02獲取數據/ 296
03過濾與排序/ 297
04聚合數據/ 298
05 join連接/ 299
06 union與zip / 300
07讀寫文件/ 301
08結語/ 303

0x73分佈式SQL，蝶戀飛舞/ 304
01 SQL工具/ 304
02命令行CLI / 304
03讀Hive數據/ 305
04將結果寫入Hive / 306
05讀寫MySQL數據/ 307
06讀寫三種文件/ 308

0x74 DataFrame，三角之戀/ 310
01 DataFrame / 310
02生成數據框/ 311
03合併與join / 313
04 select操作/ 314
05 SQL操作/ 315
06自定義UDF / 316
07三角之戀/ 318

0x75神器之父，Scala入世/ 319
01 Spark與Scala / 319
02 Scala REPL / 320
03編譯Scala / 321
04 sbt編譯/ 322
05示例分析/ 323
06編譯提交/ 325

0x76機器之心，ML套路/ 326
01城市套路深/ 326
02算法與特徵工程/ 327
03管道工作流/ 328
04 OneHotEncoder示例/ 329
05 ML回歸實戰/ 331
06特徵處理與算法/ 332
07擬合與評估/ 334

0x8數據科學，全棧智慧/ 337

0x80才高八鬥，共分天下/ 337

0x81自學數據，神蟒領舞/ 339
01機器學習/ 339
02語言領域/ 339
03 Python數據生態/ 340
04相關資料/ 341
05書籍推薦/ 342
06 感的職業/ 343

0x82數據科學，七大技能/ 343
01七大技能/ 343
02 SQL與NoSQL技能/ 344
03 Linux工具集/ 344
04 Python或者R語言生態/ 345
05 Hadoop與Spark生態/ 345
06概率、統計與線性代數/ 346
07機器學習與深度學習/ 346
08業務及雜項/ 347
09結語/ 347

0x83大無所大，生態框架/ 348
01計算生態/ 348
02離線計算/ 348
03交互分析/ 349
04實時處理/ 350
05算法挖掘/ 351
06發行版本/ 352
07其他工具/ 353

0x84集體智慧，失控哲學/ 354
01數據是寶/ 354
02一分為二/ 355
03回歸統一/ 356
04聚少成多/ 356
05你中有我/ 357
06從小看大/ 358
07大事化小/ 358
08少即是多/ 359

0x85一技之長，一生之用/ 359
01一技之長/ 359
02數據分析相關/ 360
03 Python相關/ 360
04 Hadoop相關/ 361
05 Spark相關/ 361
06模型相關/ 362
07算法相關/ 362
08一生之用/ 363

0x86知識作譜，數據為棧/ 363
01知識作譜/ 363
02理論基礎/ 363
03 Python/ R編程/ 364
04分析與可視化/ 365
05大數據/ 365
06 ETL與特徵工程/ 366
07機器學習與深度學習/ 366
08工具與庫/ 367
09全棧為用/ 367