數據科學技術與應用——基於Python實現(第2版)

宋暉,劉曉強

  • 出版商: 電子工業
  • 出版日期: 2021-07-01
  • 定價: $234
  • 售價: 8.5$199
  • 語言: 簡體中文
  • 頁數: 196
  • 裝訂: 平裝
  • ISBN: 7121415151
  • ISBN-13: 9787121415159
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

商品描述

本書內容涵蓋數據科學和大數據技術的基礎知識,圍繞數據科學的工作流程,詳細介紹了從數據中獲取知識的方法和技術,包括數據採集、數據整理與探索、數據可視化和數據建模預測等。本書介紹了人工智能前沿領域中文本、圖像、語音、序列數據的主流分析處理方法,同時也闡述了基於大數據分佈式計算框架處理海量數據的平臺和工具。全書設計收集了多個數據應用案例,採用Python語言及相關科學計算工具包實現數據分析過程,幫助讀者通過實際案例培養數據思維,掌握數據分析的實踐技能,運用統計學、人工智能等先進技術解決實際問題。 本書通俗易懂、實例豐富、技術先進,配備豐富的教學資源,可作為各類高等院校數據科學、大數據技術的入門教材,以及電腦基礎教學較高層次課程的教材,也可以作為數據科學實踐的技術參考書。

作者簡介

宋暉博士、教授,長期從事Web數據挖掘、機器學習和智能信息處理方面的研究和教學工作,主持完成多項數據挖掘、智能分析和信息系統的研發,在數據科學方向有深厚的理論基礎以及豐富的實踐經驗。

目錄大綱

目 錄
第1章 數據科學基礎t(1)
1.1 數據科學概述t(1)
1.1.1 數據的力量t(1)
1.1.2 數據科學的知識結構t(2)
1.1.3 數據科學的工作流程t(4)
1.2 數據科學的關鍵技術t(5)
1.2.1 數據採集t(5)
1.2.2 數據預處理t(7)
1.2.3 數據存儲與管理t(8)
1.2.4 數據分析t(9)
1.3 Python數據分析工具t(9)
1.3.1 科學計算集成環境t(9)
1.3.2 Python編譯環境t(10)
1.3.3 Jupyter Notebookt(11)
1.4 Python語言基礎t(12)
1.4.1 常用數據類型t(12)
1.4.2 流程控制t(14)
1.4.3 函數和方法庫t(16)
綜合練習題t(17)

第2章 多維數據結構與運算t(18)
2.1 多維數組對象t(18)
2.1.1 多維數組(張量)t(18)
2.1.2 一維數組對象t(19)
2.1.3 二維數組對象t(21)
2.1.4 創建多維數組的常用函數t(23)
2.2 多維數組運算t(25)
2.2.1 基本算術運算t(26)
2.2.2 函數和矩陣運算t(27)
2.2.3 數組生成函數t(29)
2.3 案例:遊走軌跡模擬t(30)
綜合練習題t(33)

第3章 數據匯總與統計t(34)
3.1 統計的基本概念t(34)
3.1.1 統計的義t(34)
3.1.2 常用統計量t(35)
3.2 pandas數據結構t(37)
3.2.1 Series對象t(37)
3.2.2 Series對象的數據訪問t(38)
3.2.3 DataFrame對象t(40)
3.2.4 DataFrame對象的數據訪問t(41)
3.3 數據文件的讀/寫t(45)
3.3.1 讀/寫CSV文件和TXT文件t(45)
3.3.2 讀取Excel文件t(48)
3.4 數據清洗t(49)
3.4.1 缺失數據處理t(49)
3.4.2 去除重複數據t(52)
3.5 數據規整化t(52)
3.5.1 數據合併t(52)
3.5.2 數據排序t(55)
3.6 統計分析t(56)
3.6.1 通用函數與運算t(57)
3.6.2 統計函數t(57)
3.6.3 相關性分析t(60)
3.6.4 案例:問卷調查反饋表分析t(60)
綜合練習題t(63)

第4章 數據可視化t(64)
4.1 Python繪圖基礎t(64)
4.1.1 認識基本圖形t(64)
4.1.2 pandas快速繪圖t(64)
4.1.3 Matplotlib精細繪圖t(66)
4.2 可視化數據探索t(71)
4.2.1 繪製常用圖形t(71)
4.2.2 使用pyecharts繪製交互數據圖t(81)
綜合練習題t(85)

第5章 機器學習建模分析t(88)
5.1 機器學習概述t(88)
5.1.1 機器學習與人工智能t(88)
5.1.2 Python機器學習方法庫t(90)
5.2 回歸分析t(90)
5.2.1 回歸分析原理t(90)
5.2.2 回歸分析實現t(91)
5.2.3 回歸分析性能評估t(94)
5.3 分類分析t(96)
5.3.1 分類學習原理t(96)
5.3.2 決策樹t(98)
5.3.3 支持向量機t(102)
5.4 聚類分析t(106)
5.4.1 聚類任務t(106)
5.4.2 K-means算法t(107)
5.4.3 聚類方法的性能評估t(110)
5.5 數據降維t(112)
5.5.1 降維分析方法t(112)
5.5.2 主成分分析t(113)
5.6 集成學習t(115)
5.6.1 森林算法的基本原理t(116)
5.6.2 梯度提昇機算法的基本原理t(116)
5.6.3 集成學習建模分析t(117)
綜合練習題t(119)

第6章 神經網絡與深度學習建模分析t(120)
6.1 神經網絡概述t(120)
6.1.1 神經元與感知器t(120)
6.1.2 神經網絡模型t(121)
6.1.3 神經網絡分類實現t(122)
6.2 深度學習t(125)
6.2.1 深度學習的基本原理t(125)
6.2.2 深度學習框架Kerast(126)
6.2.3 深度學習建模分析實例t(128)
綜合練習題t(130)

第7章 文本數據處理t(131)
7.1 文本處理概述t(131)
7.1.1 文本處理的常見任務t(131)
7.1.2 文本處理的基本步驟t(132)
7.2 中文文本處理t(134)
7.2.1 中文分詞t(134)
7.2.2 詞性標註t(135)
7.2.3 特徵提取t(136)
7.3 實例:垃圾郵件的識別t(140)
7.3.1 數據來源t(140)
7.3.2 基於詞袋模型識別垃圾郵件t(141)
7.3.3 基於詞向量模型識別垃圾郵件t(143)
綜合練習題t(146)

第8章 圖像數據處理t(147)
8.1 數字圖像概述t(147)
8.1.1 數字圖像t(147)
8.1.2 數字圖像類型t(147)
8.1.3 數字圖像處理t(148)
8.2 Python圖像處理t(149)
8.2.1 Python圖像處理庫t(149)
8.2.2 圖像的基本操作t(150)
8.3 案例:深度學習實現圖像分類t(152)
8.3.1 卷積神經網絡t(152)
8.3.2 基於Keras實現圖像分類t(153)
綜合練習題t(157)

第9章 時序數據與語音處理t(158)
9.1 時序數據概述t(158)
9.1.1 時序數據特性t(158)
9.1.2 時序數據特徵的提取t(159)
9.2 時序數據分析方法t(161)
9.2.1 時序數據分析過程t(161)
9.2.2 溫度預測實例t(162)
9.3 語音識別技術t(166)
9.3.1 語音識別技術簡介t(166)
9.3.2 語音識別中的時序數據處理t(167)
9.3.3 在線語音識別實例t(169)
綜合練習題t(171)

第10章 大數據技術t(172)
10.1 大數據概述t(172)
10.1.1 大數據的特點t(172)
10.1.2 大數據技術t(174)
10.1.3 大數據基礎設施t(175)
10.2 分佈式計算框架t(177)
10.2.1 Hadoop概述t(178)
10.2.2 MapReduce分佈式計算t(180)
10.2.3 Spark分佈式計算t(182)
10.2.4 Spark分佈式計算t(183)
10.3 分佈式建模分析工具t(185)
10.3.1 Hadoop Mahoutt(185)
10.3.2 Spark MLlibt(186)
10.3.3 Spark MLlib建模分析t(187)
綜合練習題t(188)
參考資料t(189)