機器學習與R語言實戰 机器学习与R语言实战

丘祐瑋 (Yu-Wei Chiu)

無法訂購

買這商品的人也買了...

相關主題

商品描述

<內容介紹>

現在,越來越多的人開始接觸並考慮引入大數據技術來促進公司產品的銷售以獲得更多利潤,而機器學習已經成為除統計以外一種新的分析方法,採用學習演算法既能提高數據模型的預測精準度,又確保了對商務活動及其發展過程的預測能夠擺脫人腦計算能力的局限,使面向大數據的分析處理依托電腦的大規模計算能力得以完成。
    《機器學習與R語言實戰/數據分析與決策技術叢書》由資深數據科學家丘祐瑋親筆撰寫,借助當前機器學習和數據分析領域最常用的工具R語言,深入淺出地介紹了採用R語言進行數據分析及構建預測模型的100多種實用方法,包括分類、回歸、聚類、關聯分析等常用機器學習演算法的實現,每一個演算法都通過具體案例詳細說明構建模型、實現模型以及評價模型的過程。而且書中還系統講解了相關的R語言基礎知識,包括環境準備以及數據轉換、分析和結果可視化的方法。此外,還詳細展示了使用RHadoop處理和分析海量數據的過程。
    本書融合了作者在實踐機器學習演算法來完成數據分析方面的諸多心得,並且書中所有源代碼和實驗數據在配套的網站上都可以免費下載,相信閱讀完本書並親自動手完成書中所有演算法案例後,你將對機器學習和R語言都有更深入的瞭解,設計學習演算法來發現隱藏在數據中有價值的模式也不再是遙不可及的目標。

<章節目錄>
譯者序
前言
作者簡介
審校者簡介
第1章  基於R實踐機器學習
  1.1  簡介
  1.2  下載和安裝R
  1.3  下載和安裝RStudio
  1.4  包的安裝和加載
  1.5  數據讀寫
  1.6  使用R實現數據操作
  1.7  應用簡單統計
  1.8  數據可視化
  1.9  獲取用於機器學習的數據集
第2章  挖掘RMS Titanic數據集
  2.1  簡介
  2.2  從CSV文件中讀取Titanic數據集
  2.3  根據數據類型進行轉換
  2.4  檢測缺失值
  2.5  插補缺失值
  2.6  識別和可視化數據
  2.7  基於決策樹預測獲救乘客
  2.8  基於混淆矩陣驗證預測結果的準確性
  2.9  使用ROC曲線評估性能
第3章  R和統計
  3.1  簡介
  3.2  理解R中的數據採樣
  3.3  在R中控制概率分佈
  3.4  在R中進行一元描述統計
  3.5  在R中進行多元相關分析
  3.6  進行多元線性回歸分析
  3.7  執行二項分佈檢驗
  3.8  執行t檢驗
  3.9  執行Kolmogorov-Smirnov檢驗
  3.10  理解Wilcoxon秩和檢驗及Wilcoxon符號秩檢驗
  3.11  實施皮爾森卡方檢驗
  3.12  進行單因素方差分析
  3.13  進行雙因素方差分析
第4章  理解回歸分析
  4.1  簡介
  4.2  調用lm函數構建線性回歸模型
  4.3  輸出線性模型的特徵信息
  4.4  使用線性回歸模型預測未知值
  4.5  生成模型的診斷圖
  4.6  利用lm函數生成多項式回歸模型
  4.7  調用rlm函數生成穩健線性回歸模型
  4.8  在SLID數據集上研究線性回歸案例
  4.9  基於高斯模型的廣義線性回歸
  4.10  基於泊松模型的廣義線性回歸
  4.11  基於二項模型的廣義線性回歸

  4.12  利用廣義加性模型處理數據
  4.13  可視化廣義加性模型
  4.14  診斷廣義加性模型
第5章  分類I——樹、延遲和概率
  5.1  簡介
  5.2  準備訓練和測試數據集
  5.3  使用遞歸分割樹建立分類模型
  5.4  遞歸分割樹可視化
  5.5  評測遞歸分割樹的預測能力
  5.6  遞歸分割樹剪枝
  5.7  使用條件推理樹建立分類模型
  5.8  條件推理樹可視化
  5.9  評測條件推理樹的預測能力
  5.10  使用k近鄰分類演算法
  5.11  使用邏輯回歸分類演算法
  5.12  使用樸素貝葉斯分類演算法
第6章  分類II—神經網絡和SVM
  6.1  簡介
  6.2  使用支持向量機完成數據分類
  6.3  選擇支持向量機的懲罰因子
  6.4  實現SVM模型的可視化
  6.5  基於支持向量機訓練模型實現類預測
  6.6  調整支持向量機
  6.7  利用neuralnet包訓練神經網絡模型
  6.8  可視化由neuralnet包得到的神經網絡模型
  6.9  基於neuralnet包得到的模型實現類標號預測
  6.10  利用nnet包訓練神經網絡模型
  6.11  基於nnet包得到的模型實現類標號預測
第7章  模型評估
  7.1  簡介
  7.2  基於k折交叉驗證方法評測模型性能
  7.3  利用e1071包完成交叉驗證
  7.4  利用caret包完成交叉檢驗
  7.5  利用caret包對變量重要程度排序
  7.6  利用rminer包對變量重要程度排序
  7.7  利用caret包找到高度關聯的特徵
  7.8  利用caret包選擇特徵
  7.9  評測回歸模型的性能
  7.10  利用混淆矩陣評測模型的預測能力
  7.11  利用ROCR評測模型的預測能力
  7.12  利用caret包比較ROC曲線
  7.13  利用caret包比較模型性能差異
第8章  集成學習
  8.1  簡介
  8.2  使用bagging方法對數據分類
  8.3  基於bagging方法進行交叉驗證
  8.4  使用boosting方法對數據分類
  8.5  基於boosting方法進行交叉驗證
  8.6  使用gradient boosting方法對數據分類
  8.7  計算分類器邊緣

  8.8  計算集成分類演算法的誤差演變
  8.9  使用隨機森林方法對數據分類
  8.10  估算不同分類器的預測誤差
第9章  聚類
  9.1  簡介
  9.2  使用層次聚類處理數據
  9.3  將樹分成簇
  9.4  使用k均值方法處理數據
  9.5  繪製二元聚類圖
  9.6  聚類演算法比較
  9.7  從簇中抽取輪廓信息
  9.8  獲得優化的k均值聚類
  9.9  使用密度聚類方法處理數據
  9.10  使用基於模型的聚類方法處理數據
  9.11  相異度矩陣的可視化
  9.12  使用外部驗證評估聚類效果
第10章  關聯分析和序列挖掘
  10.1  簡介
  10.2  將數據轉換成事務數據
  10.3  展示事務及關聯
  10.4  使用Apriori規則完成關聯挖掘
  10.5  去掉冗餘規則
  10.6  關聯規則的可視化
  10.7  使用Eclat挖掘頻繁項集
  10.8  生成時態事務數據
  10.9  使用cSPADE挖掘頻繁時序模式
第11章  降維
  11.1  簡介
  11.2  使用FSelector完成特徵篩選
  11.3  使用PCA進行降維
  11.4  使用scree測試確定主成分數
  11.5  使用Kaiser方法確定主成分數
  11.6  使用主成分分析散點圖可視化多元變量
  11.7  使用MDS進行降維
  11.8  使用SVD進行降維
  11.9  使用SVD進行圖像壓縮
  11.10  使用ISOMAP進行非線性降維
  11.11  使用局部線性嵌入法進行非線性降維
第12章  大數據分析(R和Hadoop)
  12.1  簡介
  12.2  準備RHadoop環境
  12.3  安裝rmr2
  12.4  安裝rhdfs
  12.5  在rhdfs中操作HDFS
  12.6  在RHadoop中解決單詞計數問題
  12.7  比較R MapReduce程序和標準R程序的性能差別
  12.8  測試和調試rmr2程序
  12.9  安裝plyrmr
  12.10  使用plyrmr處理數據
  12.11  在RHadoop中實施機器學習

  12.12  在Amazon EMR環境中配置RHadoop機群
附錄A  R和機器學習的資源
附錄B  Titanic倖存者的數據集