大數據技術與機器學習 Python 實戰

張曉明

  • 大數據技術與機器學習 Python 實戰-preview-1
  • 大數據技術與機器學習 Python 實戰-preview-2
  • 大數據技術與機器學習 Python 實戰-preview-3
大數據技術與機器學習 Python 實戰-preview-1

買這商品的人也買了...

商品描述

本書基於電腦類專業對大數據平臺技術和大規模數據處理的實戰需求,在闡述數據科學、Hadoop和Spark配置要點和大數據處理周期的基礎上,重點闡述大數據採集與存儲、預處理、特徵工程、數據可視化分析、機器學習基礎等大數據處理技術及其Python實現,以及基於Hadoop和Spark平臺的Python接口調用和機器學習編程實例分析。本書既強調了大數據處理周期的基本原理和關鍵技術,又突出機器學習算法及其在分佈式系統中的應用編程方法。 本書可作為高等院校電腦、大數據、人工智能、軟件工程等專業的教材,也可作為大數據技術研發人員和研究生的學習參考用書。

作者簡介

張曉明,男,教授,博士,北京市教學名師,北京市中青年骨干教師,北京高校繼續教育高水平教學團隊帶頭人,計算機和大數據專業負責人。
CCF分佈式計算與系統專委會委員,全國高校計算機教育研究會理事,北京市高校計算機教育研究會常務理事。
主講《計算機網絡》、《大數據技術及應用開發》等課程。
出版《計算機網絡教程(第2版)》、《C#網絡通信程序設計》、《軟件系統設計與體系結構》等教材7部,專著1部。
榮獲2018年北京市高等教育教學成果一等獎。
從事網絡計算與系統安全、大數據技術分析等研究,發表論文60餘篇。

目錄大綱

第1章緒論
1.1大數據技術概述
1.1.1大數據的特點
1.1.2大數據與數據科學的關係
1.1.3大數據的關鍵技術
1.1.4大數據的計算模式
1.2基於Hadoop系統的大數據平台
1.2.1Hadoop的特點
1.2.2Hadoop的生態系統
1.3基於Spark系統的大數據平台
1.3.1Spark的生態系統
1.3.2Spark與Hadoop的比較
1.4面向實時計算的大數據平台
1.4.1Storm介紹
1.4.2Storm的核心組件
1.4.3Storm的特性
1.5大數據技術的發展趨勢
1.6Windows1下Spark+Hadoop+Hive+Pyspark配置

第2章Hadoop系統應用開發基礎
2.1HadoopYARN應用基礎
2.1.1YARN的設計目標
2.1.2YARN的組件及架構
2.1.3YARN的運行流程
2.2HDFS文件系統及其應用
2.2.1HDFS體系結構
2.2.2HDFS的存儲原理
2.2.3HDFS的數據讀寫過程
2.2.4HDFS的常用命令
2.3MapReduce計算模型及其應用
2.3.1MapReduce編程原理
2.3.2MapReduce模型的應用
2.4HBase大數據存儲與訪問
2.4.1HBase的體系結構
2.4.2Region的分區與列族
2.4.3HBase的數據模型
2.5基於Hadoop Streaming的應用編程技術
2.5.1Hadoop Streaming說明
2.5.2Hadoop Streaming應用入門
2.6Linux系統下Hadoop集群部署
2.6.1分佈式集群配置思路
2.6.2Linux系統基礎配置
2.6.3Hadoop平台配置
2.7Hadoop集群實例測試
2.7.1實例說明
2.7.2PI實例的運行
2.7.3WordCount實例的運行

第3章Spark應用開發基礎
3.1Spark的Python編程環境設置
3.2Spark的工作機制
3.3彈性分佈式數據集RDD基礎
3.4RDD的Python程序設計
3.5SparkSQL
3.5.1Spark SQL的特點
3.5.2RDD、DataFrame和DataSet比較
3.5.3Spark SQL的核心API
3.5.4Spark SQL編程示例
3.5.5部分SparkSQL編程要點
3.6Spark Streaming的應用編程技術
3.6.1Spark Streaming的工作原理
3.6.2Spark Streaming的編程示例

第4章大數據採集與存儲技術
4.1網絡爬蟲
4.1.1網絡爬蟲的基本結構及工作流程
4.1.2網絡爬蟲分類
4.1.3抓取策略
4.1.4網絡爬蟲的分析算法
4.2大數據採集平台與工具
4.2.1Apache Flume
4.2.2Sqoop
4.2.3常用網絡爬蟲工具
4.3網絡爬蟲程序設計
4.3.1Python爬蟲基本流程
4.3.2Requests庫入門
4.3.3Requests庫用於網絡爬蟲設計示例
4.3.4BeautifulSoup庫的應用
4.3.5Selenium的應用技術
4.4大數據存儲與管理技術
4.4.1大數據存儲與管理類型
4.4.2三種數據庫比較
4.4.3NewSQL、NoSQL與OldSQL混合部署應用方案

第5章大數據預處理技術
5.1數據預處理概述
5.2數據清洗
5.2.1缺失值處理
5.2.2重複值處理
5.2.3異常值處理
5.3文本數據清洗
5.3.1純文本的正則處理方法
5.3.2HTML網頁數據的正則處理方法
5.3.3其他方法
5.4數據規範化處理
5.4.1數據規範化的常見方法
5.4.2零均值規範化示例
5.4.3特徵歸一化示例
5.4.4小-大規範化示例
5.4.5特徵二值化示例
5.5數據平滑化處理
5.5.1移動平均法
5.5.2指數平滑法
5.5.3分箱法
5.6基於PCA的數據規約技術
5.6.1主成分分析技術
5.6.2在OpenCV中實現主成分分析

第6章數據表示與特徵工程
6.1特徵工程概述
6.1.1特徵的概念與分類
6.1.2特徵工程的含義和作用
6.1.3特徵工程的組成
6.2類別變量表示
6.2.1OneHotEncoder
6.2.2DictVectorizer
6.3文本特徵工程
6.3.1文本特徵表示方法
6.3.2文本特徵的計算
圖像特徵表示
.1OpenCV介紹
.2圖像特徵點提取
.3ORB
6.5音頻特徵表示
6.5.1PyAudio庫的應用
6.5.2Librosa

第7章數據可視化技術及應用
7.1可視化技術概述
7.1.1數據可視化的概念
7.1.2數據可視化的重要應用示例
7.2ECharts應用入門
7.2.1ECharts的應用方法
7.2.2ECharts的簡單應用
7.3pyecharts應用基礎
7.3.1pyecharts的圖表說明
7.3.2pyecharts的安裝和使用方法
7.4文本可視化
7.4.1文本內容可視化
7.4.2文本關係可視化
7.4.3主題模型的可視化分析
7.4.4主題演變的文本可視化
7.5基於pyecharts實現多維數據可視化
7.5.1基於時間軸的數據可視化
7.5.2基於日曆圖的數據可視化
7.5.3三維空間的數據可視化
7.6大規模數據可視化的編程技術實例

第8章機器學習基礎及應用技術
8.1機器學習概述
8.1.1機器學分類
8.1.2機器學基本流程
8.1.3機器學評估度量標準
8.1.4機器學距離計算方法
8.2K近鄰算法
8.2.1K近鄰算法概述
8.2.2KNN的應用方法
8.2.3sklearn中KNN算法實現
8.2.4利用sklearn中KNN算法實現鳶尾花分類
8.2.5K近鄰算法的K值分析
8.3K-Means算法原理及應用
8.3.1K-Means算法描述
8.3.2K-Means算法的參數設計
8.3.3K-Means算法的應用
8.4LightGBM算法及應用技術
8.4.1LightGBM介紹
8.4.2LightGBM算法介紹
8.4.3LightGBM的基本應用
8.4.4LightGBM參數說明與調參
8.4.5回歸模型及其預測

第9章基於Spark機器學習庫的大數據推薦技術
9.1Spark機器學習庫介紹
9.1.1Spark的mllib模塊庫
9.1.2mllib的算法庫示例說明
9.1.3Spark的ml模塊庫
9.2大數據推薦技術
9.2.1推薦系統概述
9.2.2基於內容的推薦算法
9.2.3基於用戶的協同過濾推薦
9.2.4基於物品的協同過濾推薦
9.2.5基於模型的推薦
9.3基於Spark的ALS推薦算法
9.3.1ALS算法解析
9.3.2Spark的推薦算法說明
9.4基於Spark的電影推薦模型設計與實現
9.4.1NetflixPrize評分預測競賽
9.4.2數據分析
9.4.3模型設計
9.4.4Python電影推薦模型設計

參考文獻