大數據分析基礎
李石明
- 出版商: 清華大學
- 出版日期: 2025-08-01
- 售價: $360
- 語言: 簡體中文
- 頁數: 261
- ISBN: 7302697957
- ISBN-13: 9787302697954
-
相關分類:
Python、Machine Learning、大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
"《大數據分析基礎》首先全面介紹了信息技術、計算機基礎,以及計算機的起源與發展、計算機系統的組成、操作系統和文件管理等內容,然後深入探討了Python編程的基礎知識,包括編程環境、語法、流程控制、組合數據類型、函數和模塊、常用的庫等,並通過豐富的實操練習幫助讀者掌握Python在文件管理、數據處理、科學計算等領域的應用能力。此外,本書涵蓋了機器學習、大數據分析框架及國產大模型DeepSeek等內容,有助於讀者建立從基礎到前沿 的Python知識體系。本書包含豐富的代碼示例和綜合案例,可以幫助讀者快速掌握大數據分析理論和實用的編程技能。 本書適用於高等院校計算機相關專業的學生、Python編程初學者,以及對數據科學、機器學習感興趣的讀者。"
作者簡介
李石明,博士,畢業於中國科學技術大學,主要研究方向為大數據、電子政務、企業管理等學科的教學和研究工作;近年來,主持省部級以上課題4項,參與國家級課題2項,出版《綠色未來:ESG視角下的碳信息披露與企業價值重塑》《電子商務專業辦學特色的探索與實踐》專著2部,《公司戰略與風險管理》《Python編程:從入門到實踐》等教材4部,公開發表SCI、CSSCI及北大核心期刊論文12篇。
目錄大綱
目錄
第 1 部分 築基篇——Python 與數據科學的橋梁
第1章 信息技術與計算機基礎 / 2
1.1 信息社會與計算機 / 3
1.1.1 信息與信息處理 / 3
1.1.2 計算機的起源與發展 / 4
1.1.3 計算機的分類和應用領域 / 9
1.1.4 計算思維 / 11
1.2 計算機基礎知識 / 13
1.2.1 信息編碼 / 13
1.2.2 計算機系統 / 24
1.2.3 操作系統和文件 / 32
本章小結 / 37
習題 / 38
第2章 Python編程基礎 / 39
2.1 Python概述 / 40
2.1.1 產生背景 / 40
2.1.2 歷史發展 / 40
2.1.3 版本更疊 / 41
2.1.4 應用分析 / 41
2.1.5 發展趨勢 / 42
2.2 編程環境 / 42
2.2.1 安裝Python解釋器 / 43
2.2.2 選擇合適的IDE / 43
2.2.3 安裝常用的庫和工具 / 43
2.2.4 配置環境變量 / 43
2.2.5 測試和驗證 / 44
2.3 基礎知識 / 45
2.3.1 標識符 / 45
2.3.2 變量 / 46
2.3.3 數據類型 / 46
2.3.4 字符串的表示及格式化 / 47
2.3.5 語句input/output / 48
2.4 流程控制 / 50
2.4.1 程序的基本結構 / 50
2.4.2 分支結構 / 50
2.4.3 循環結構 / 53
2.4.4 綜合案例 / 55
2.5 組合數據類型 / 61
2.5.1 列表及其操作 / 61
2.5.2 元組及其操作 / 64
2.5.3 字典及其操作 / 66
2.5.4 集合及其操作 / 68
2.6 函數和模塊 / 71
2.6.1 函數 / 71
2.6.2 實操練習:成績管理系統 / 77
2.6.3 模塊 / 79
2.6.4 實操練習:學生管理系統 / 80
2.7 常用的庫 / 82
2.7.1 隨機數random庫 / 82
2.7.2 繪圖工具turtle庫 / 83
2.7.3 中文分詞jieba庫 / 85
2.7.4 詞雲工具wordcloud庫 / 85
本章小結 / 86
習題 / 87
第3章 Python操作實踐 / 88
3.1 文件和目錄操作 / 89
3.1.1 基本概念 / 89
3.1.2 文件的打開與關閉 / 89
3.1.3 文件的讀寫 / 90
3.1.4 文件和目錄的管理 / 91
3.1.5 實操練習:文件和目錄管理 / 92
3.2 Word文檔處理 / 93
3.2.1 安裝 python-docx 庫 / 93
3.2.2 創建新文檔 / 93
3.2.3 修改現有文檔 / 94
3.2.4 高級功能與擴展功能 / 94
3.2.5 實操練習:Word文檔處理 / 95
3.3 PDF文件處理 / 99
3.3.1 安裝 PyPDF2 和 pdfplumber / 99
3.3.2 內容提取 / 99
3.3.3 合並與拆分 / 99
3.3.4 加密與解密 / 100
3.3.5 實操練習:自動生成報告 / 100
3.4 Excel電子表格處理 / 101
3.4.1 安裝依賴庫 / 101
3.4.2 讀取Excel中的數據 / 101
3.4.3 數據清洗與處理 / 101
3.4.4 將數據寫入Excel / 101
3.4.5 高級操作 / 101
3.4.6 實操練習:自動生成銷售數據分析報告 / 102
3.5 PPT演示文稿處理 / 102
3.5.1 安裝 python-pptx 庫 / 102
3.5.2 創建基礎PPT / 103
3.5.3 高級功能 / 104
3.6 NumPy 科學計算庫 / 105
3.6.1 NumPy庫概述 / 106
3.6.2 數組維度 / 106
3.6.3 數組對象ndarray / 106
3.6.4 數組操作 / 108
3.6.5 數組運算 / 115
3.6.6 數據處理 / 120
3.6.7 實操練習:酒鬼漫步 / 126
3.6.8 實操練習:地區經濟發展分析 / 127
3.7 Pandas 數據處理與分析庫 / 129
3.7.1 Pandas庫概述 / 130
3.7.2 數據讀取與寫入 / 130
3.7.3 數據對象DataFrame與Series / 132
3.7.4 實操練習:將多個DataFrame寫入一個Excel的不同sheet的操作 / 144
3.7.5 實操練習:北京高考分數線統計分析 / 145
3.7.6 數據清洗與預處理(選講) / 149
3.7.7 實操練習:預處理銷售數據(選講) / 154
3.7.8 數據聚合與分組(選講) / 158
3.7.9 實操練習:運動員信息的分組與聚合(選講) / 170
3.8 數據可視化工具Matplotlib和Seaborn / 176
3.8.1 Matplotlib基礎 / 176
3.8.2 繪制常見圖表 / 177
3.8.3 Seaborn高級可視化 / 183
3.8.4 進階用法 / 190
3.8.5 實操練習:數據可視化 / 192
3.8.6 實操練習:圖示分析景點數據 / 193
本章小結 / 197
習題 / 198
第4章 機器學習基礎 / 199
4.1 概述 / 200
4.2 scikit-learn庫 / 201
4.2.1 核心功能 / 201
4.2.2 安裝 / 201
4.2.3 實操練習:用KNN算法對鳶尾花數據集進行分類 / 201
4.3 監督學習 / 202
4.4 無監督學習 / 203
4.5 模型評估與優化 / 205
4.5.1 模型評估 / 205
4.5.2 模型優化 / 205
4.5.3 實操練習:用決策樹對鳶尾花數據集進行分類 / 206
本章小結 / 207
習題 / 207
第 2 部分 進階篇——分布式計算與生態工具
第5章 大數據基礎及應用框架 / 210
5.1 大數據基礎知識 / 211
5.1.1 概念及特征 / 211
5.1.2 發展現狀 / 213
5.2 大數據分析理論與方法 / 217
5.2.1 基本理念 / 218
5.2.2 主要步驟 / 219
5.2.3 數據對象 / 220
5.2.4 主要模型 / 221
5.2.5 應用平臺 / 228
5.3 大數據分析框架 / 229
5.3.1 Hadoop與HDFS / 229
5.3.2 大數據的存儲與訪問 / 230
5.4 Spark數據處理平臺 / 230
5.4.1 核心組件 / 231
5.4.2 基本概念 / 231
5.4.3 實操練習:詞頻統計 / 232
5.5 大數據分析應用前沿 / 233
5.5.1 在金融領域的應用 / 233
5.5.2 在零售領域的應用 / 234
5.5.3 在制造業領域的應用 / 235
5.5.4 在醫療領域的應用 / 235
本章小結 / 236
習題 / 237
第6章 國產大模型DeepSeek / 238
6.1 核心特點 / 239
6.2 技術基礎 / 239
6.3 應用場景 / 240
6.4 DeepSeek的使用方法 / 240
6.5 實操練習 / 240
本章小結 / 241
習題 / 241
第 3 部分 實戰篇——從數據到商業價值
第7章 實戰案例 / 244
7.1 案例一:電商數據分析 / 244
7.1.1 示例場景 / 244
7.1.2 安裝依賴 / 245
7.1.3 示例代碼 / 245
7.2 案例二:社交媒體情感分析 / 247
7.2.1 示例場景 / 247
7.2.2 安裝依賴 / 247
7.2.3 示例代碼 / 247
7.3 案例三:財務大數據分析 / 249
7.3.1 示例場景 / 250
7.3.2 安裝依賴 / 250
7.3.3 示例代碼 / 250
7.4 案例四:政務大數據分析 / 253
7.4.1 示例場景 / 253
7.4.2 安裝依賴 / 253
7.4.3 示例代碼 / 253
7.5 案例五:自媒體大數據分析 / 255
7.5.1 示例場景 / 256
7.5.2 安裝依賴 / 256
7.5.3 示例代碼 / 256
7.6 案例六:生活服務類大數據分析 / 258
7.6.1 示例場景 / 258
7.6.2 安裝依賴 / 259
7.6.3 示例代碼 / 259
參考文獻 / 262