大數據分析基礎

李石明

  • 大數據分析基礎-preview-1
  • 大數據分析基礎-preview-2
  • 大數據分析基礎-preview-3
大數據分析基礎-preview-1

相關主題

商品描述

"《大數據分析基礎》首先全面介紹了信息技術、計算機基礎,以及計算機的起源與發展、計算機系統的組成、操作系統和文件管理等內容,然後深入探討了Python編程的基礎知識,包括編程環境、語法、流程控制、組合數據類型、函數和模塊、常用的庫等,並通過豐富的實操練習幫助讀者掌握Python在文件管理、數據處理、科學計算等領域的應用能力。此外,本書涵蓋了機器學習、大數據分析框架及國產大模型DeepSeek等內容,有助於讀者建立從基礎到前沿 的Python知識體系。本書包含豐富的代碼示例和綜合案例,可以幫助讀者快速掌握大數據分析理論和實用的編程技能。 本書適用於高等院校計算機相關專業的學生、Python編程初學者,以及對數據科學、機器學習感興趣的讀者。"

作者簡介

李石明,博士,畢業於中國科學技術大學,主要研究方向為大數據、電子政務、企業管理等學科的教學和研究工作;近年來,主持省部級以上課題4項,參與國家級課題2項,出版《綠色未來:ESG視角下的碳信息披露與企業價值重塑》《電子商務專業辦學特色的探索與實踐》專著2部,《公司戰略與風險管理》《Python編程:從入門到實踐》等教材4部,公開發表SCI、CSSCI及北大核心期刊論文12篇。

目錄大綱

目錄

 

 第 1 部分  築基篇——Python 與數據科學的橋梁 

第1章   信息技術與計算機基礎 /  2

1.1   信息社會與計算機 / 3

1.1.1    信息與信息處理 /  3

1.1.2    計算機的起源與發展 /  4

1.1.3    計算機的分類和應用領域 /  9

1.1.4    計算思維 /  11

1.2   計算機基礎知識 /  13

1.2.1    信息編碼 /  13

1.2.2    計算機系統 /  24

1.2.3    操作系統和文件 /  32 

本章小結 / 37

習題 / 38

第2章    Python編程基礎  /  39

2.1   Python概述 / 40

2.1.1    產生背景 /  40

2.1.2    歷史發展 /  40

2.1.3    版本更疊 /  41

2.1.4    應用分析 /  41

2.1.5    發展趨勢 /  42

2.2   編程環境 / 42

2.2.1    安裝Python解釋器 /  43

2.2.2    選擇合適的IDE  /  43

2.2.3    安裝常用的庫和工具 /  43

2.2.4    配置環境變量 /  43

2.2.5    測試和驗證 /  44

2.3   基礎知識 / 45

2.3.1    標識符 /  45

2.3.2    變量 /  46

2.3.3    數據類型 /  46

2.3.4    字符串的表示及格式化 /  47

2.3.5    語句input/output  /  48

2.4   流程控制 / 50

2.4.1    程序的基本結構 /  50

2.4.2    分支結構 /  50

2.4.3    循環結構 /  53

2.4.4    綜合案例 /  55

2.5   組合數據類型 / 61

2.5.1    列表及其操作 /  61

2.5.2    元組及其操作 /  64

2.5.3    字典及其操作 /  66

2.5.4    集合及其操作 /  68

2.6   函數和模塊 / 71

2.6.1    函數 /  71

2.6.2    實操練習:成績管理系統 /  77

2.6.3    模塊 /  79

2.6.4    實操練習:學生管理系統 /  80

2.7   常用的庫 / 82

2.7.1    隨機數random庫 /  82

2.7.2    繪圖工具turtle庫 /  83

2.7.3    中文分詞jieba庫 /  85

2.7.4    詞雲工具wordcloud庫 /  85

本章小結 / 86

習題 / 87

第3章    Python操作實踐  /  88

3.1   文件和目錄操作 / 89

3.1.1    基本概念 /  89

3.1.2    文件的打開與關閉 /  89

3.1.3    文件的讀寫 /  90

3.1.4    文件和目錄的管理 /  91

3.1.5    實操練習:文件和目錄管理 /  92

3.2   Word文檔處理 / 93

3.2.1    安裝 python-docx 庫 /  93

3.2.2    創建新文檔 /  93

3.2.3    修改現有文檔 /  94

3.2.4    高級功能與擴展功能 /  94

3.2.5    實操練習:Word文檔處理 /  95

3.3   PDF文件處理 / 99

3.3.1    安裝 PyPDF2 和 pdfplumber  /  99

3.3.2    內容提取 /  99

3.3.3    合並與拆分 /  99

3.3.4    加密與解密 /  100

3.3.5    實操練習:自動生成報告 /  100

3.4   Excel電子表格處理 /  101

3.4.1    安裝依賴庫 /  101

3.4.2    讀取Excel中的數據 /  101

3.4.3    數據清洗與處理 /  101

3.4.4    將數據寫入Excel  /  101

3.4.5    高級操作 /  101

3.4.6    實操練習:自動生成銷售數據分析報告 /  102

3.5   PPT演示文稿處理 /  102

3.5.1    安裝 python-pptx 庫 /  102

3.5.2    創建基礎PPT  /  103

3.5.3    高級功能 /  104

3.6   NumPy 科學計算庫 /  105

3.6.1   NumPy庫概述 /  106

3.6.2    數組維度 /  106

3.6.3    數組對象ndarray  /  106

3.6.4    數組操作 /  108

3.6.5    數組運算 /  115

3.6.6    數據處理 /  120

3.6.7    實操練習:酒鬼漫步 /  126

3.6.8    實操練習:地區經濟發展分析 /  127

3.7   Pandas 數據處理與分析庫 /  129

3.7.1    Pandas庫概述 /  130

3.7.2    數據讀取與寫入 /  130

3.7.3    數據對象DataFrame與Series  /  132

3.7.4    實操練習:將多個DataFrame寫入一個Excel的不同sheet的操作 /  144

3.7.5    實操練習:北京高考分數線統計分析 /  145

3.7.6    數據清洗與預處理(選講)  /  149

3.7.7    實操練習:預處理銷售數據(選講)  /  154

3.7.8    數據聚合與分組(選講)  /  158

3.7.9    實操練習:運動員信息的分組與聚合(選講)  /  170

3.8   數據可視化工具Matplotlib和Seaborn /  176

3.8.1    Matplotlib基礎 /  176

3.8.2    繪制常見圖表 /  177

3.8.3    Seaborn高級可視化 /  183

3.8.4    進階用法 /  190

3.8.5    實操練習:數據可視化 /  192

3.8.6    實操練習:圖示分析景點數據 /  193 

本章小結 /  197

習題 /  198

第4章   機器學習基礎 /  199

4.1   概述 / 200

4.2   scikit-learn庫 / 201

4.2.1    核心功能 /  201

4.2.2    安裝 /  201

4.2.3    實操練習:用KNN算法對鳶尾花數據集進行分類 /  201

4.3   監督學習 / 202

4.4   無監督學習 / 203

4.5   模型評估與優化 /  205

4.5.1    模型評估 /  205

4.5.2    模型優化 /  205

4.5.3    實操練習:用決策樹對鳶尾花數據集進行分類 /  206 

本章小結 / 207

習題 / 207

 

第 2 部分 進階篇——分布式計算與生態工具 

第5章   大數據基礎及應用框架 /  210

5.1   大數據基礎知識 / 211

5.1.1    概念及特征 /  211

5.1.2    發展現狀 /  213

5.2   大數據分析理論與方法  / 217

5.2.1    基本理念 /  218

5.2.2    主要步驟 /  219

5.2.3    數據對象 /  220

5.2.4    主要模型 /  221

5.2.5    應用平臺 /  228

5.3   大數據分析框架 / 229

5.3.1    Hadoop與HDFS  /  229

5.3.2    大數據的存儲與訪問 /  230

5.4   Spark數據處理平臺 /  230

5.4.1    核心組件 /  231

5.4.2    基本概念 /  231

5.4.3    實操練習:詞頻統計 /  232

5.5   大數據分析應用前沿 / 233

5.5.1    在金融領域的應用 /  233

5.5.2    在零售領域的應用 /  234

5.5.3    在制造業領域的應用 /  235

5.5.4    在醫療領域的應用 /  235

本章小結 / 236

習題 / 237

第6章    國產大模型DeepSeek /  238

6.1   核心特點 / 239

6.2   技術基礎 / 239

6.3   應用場景 / 240

6.4   DeepSeek的使用方法 /  240

6.5   實操練習 / 240

本章小結 / 241

習題 / 241

 

第 3 部分  實戰篇——從數據到商業價值 

第7章   實戰案例 /  244

7.1   案例一:電商數據分析 / 244

7.1.1    示例場景 /  244

7.1.2    安裝依賴 /  245

7.1.3    示例代碼 /  245

7.2   案例二:社交媒體情感分析  / 247

7.2.1    示例場景 /  247

7.2.2    安裝依賴 /  247

7.2.3    示例代碼 /  247

7.3   案例三:財務大數據分析  / 249

7.3.1    示例場景 /  250

7.3.2    安裝依賴 /  250

7.3.3    示例代碼 /  250

7.4   案例四:政務大數據分析  / 253

7.4.1    示例場景 /  253

7.4.2    安裝依賴 /  253

7.4.3    示例代碼 /  253

7.5   案例五:自媒體大數據分析  / 255

7.5.1    示例場景 /  256

7.5.2    安裝依賴 /  256

7.5.3    示例代碼 /  256

7.6   案例六:生活服務類大數據分析  / 258

7.6.1    示例場景 /  258

7.6.2    安裝依賴 /  259

7.6.3    示例代碼 /  259

參考文獻 / 262