大數據審計(基於Python)

張高煜

  • 出版商: 電子工業
  • 出版日期: 2025-12-01
  • 售價: $479
  • 語言: 簡體中文
  • 頁數: 297
  • ISBN: 7121476215
  • ISBN-13: 9787121476211
  • 相關分類: Python大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書為新文科教育指導思想下的金融科技編程教材,通過示例講解Python編程在審計行業的具體應用。作者基於20多年的大學計算機教學經歷與行業大數據人工智能軟件開發經驗,從基本的概念開始,逐步深入地介紹清洗表格數據、采集網絡信息、手寫票據的光學字符識別、財經文本的量化、知識圖譜自動構建等熱門知識要點,並通過實例給出算法原理與實現路徑,同時詳細介紹了代碼生成的過程和結果,有助於讀者真正掌握大數據審計中的Python編程思想與技術,並將其應用於自己的生產實踐中。本書可作為高等院校審計、財經和金融科技等專業相關課程的教材,也可作為財經和金融科技等方面從業人員的培訓用書和參考書。

目錄大綱

第1章 審計基礎與審計報告的構成 1
1.1 審計概述 1
1.1.1 審計概念 1
1.1.2 審計目的 1
1.1.3 審計風險 2
1.1.4 審計證據 2
1.2 會計概述 2
1.2.1 會計的概念及基本假設 3
1.2.2 會計信息質量要求 4
1.2.3 財務會計報告簡述 4
1.2.4 會計科目簡述 5
1.3 審計報告的構成 8
1.3.1 審計意見 8
1.3.2 形成審計意見的基礎 9
1.3.3 關鍵審計事項 10
1.3.4 其他信息 10
1.3.5 管理層和治理層對財務報表的責任 11
1.3.6 註冊會計師對財務報表審計的責任 11
1.4 智能審計國內外研究現狀 12
1.4.1 國外研究現狀 12
1.4.2 國內研究現狀 12
1.5 如何構建人工智能審計規則 13
1.5.1 基於法律法規構建規則庫 14
1.5.2 基於專家經驗構建規則庫 14
參考文獻 15
第2章 Python語法基礎 17
2.1 Python開發環境安裝 17
2.1.1 Anaconda的安裝 17
2.1.2 PyCharm的安裝配置 17
2.2 數據類型 19
2.2.1 數字 19
2.2.2 字符串 19
2.2.3 列表與元組 20
2.2.4 字典與集合 22
2.3 語句語法 24
2.3.1 變量、行、縮進與註釋 24
2.3.2 運算符 25
2.3.3 布爾值和空值 26
2.3.4 if條件語句 27
2.3.5 for循環語句 27
2.3.6 while循環語句 28
2.3.7 break與continue 29
2.4 函數與庫 29
2.4.1 函數的定義與調用 29
2.4.2 函數的返回值與作用域 30
2.4.3 常用基本函數介紹 31
2.4.4 庫 32
2.5 文件的讀與寫 33
2.5.1 input()函數與print()函數 33
2.5.2 文件的寫操作 34
2.5.3 文件的讀操作 35
2.6 類 36
2.6.1 類和對象的基本概念 36
2.6.2 面向對象的特征 36
2.6.3 type和isinstance 37
2.7 讀寫數據庫MySQL 38
2.7.1 MySQL的安裝配置 38
2.7.2 Python與MySQL的交互 39
參考文獻 41
第3章 Python科學計算與表格處理 42
3.1 Python科學計算 42
3.1.1 Pandas庫 42
3.1.2 NumPy庫 44
3.1.3 Pipeline 44
3.2 表格處理 45
3.2.1 讀取表格文件 45
3.2.2 表格數據的合並與拼接 51
3.2.3 輸出到表格文件 53
第4章 數據預處理:清洗表格數據 55
4.1 數據背景 55
4.2 數據清洗 55
4.2.1 內容替換 55
4.2.2 數據類型轉換 58
4.2.3 刪除無效數據 61
4.2.4 數據創造 64
4.2.5 DataFrame轉換 68
第5章 數據預處理:采集網絡信息 70
5.1 爬蟲基礎知識 70
5.1.1 網頁源代碼 70
5.1.2 正則表達式 72
5.2 爬蟲基礎方式 74
5.2.1 提取搜狗資訊標題、網址、日期和來源 74
5.2.2 獲取百度翻譯結果 75
5.2.3 Selenium庫詳解 77
5.2.4 BeautifulSoup庫詳解 80
5.3 爬蟲處理方法 88
5.3.1 處理數據亂碼 88
5.3.2 數據清洗與篩選 88
5.3.3 生成數據文本文件 91
5.3.4 批量爬取多家公司多頁資訊 91
5.3.5 基礎爬蟲實踐 92
5.3.6 Python與MySQL的交互實踐 93
參考文獻 95
第6章 數據預處理:解析財經報告 96
6.1 批量下載PDF文件至指定位置 96
6.2 解析單個PDF文件信息 98
6.2.1 解析PDF文件的文本內容 98
6.2.2 解析PDF文件的表格內容 99
6.3 批量提取PDF文件信息 100
6.3.1 批量輸出PDF文件的文本內容 100
6.3.2 篩選並轉移PDF文件 101
參考文獻 103
第7章 數據預處理:手寫票據的光學字符識別 104
7.1 問題場景 104
7.2 表格和單元格定位 108
7.2.1 解析PDF文件 108
7.2.2 表格定位 110
7.2.3 表格自動旋轉 112
7.2.4 單元格定位 115
7.3 單元格配準 117
7.3.1 DBSCAN聚類 118
7.3.2 描述性統計 120
7.3.3 模板可視化 121
7.4 單元格內容識別 122
7.4.1 圖片預處理 123
7.4.2 LSTM-RNN-CTC模型 124
第8章 自然語言處理:財經文本的量化 127
8.1 自然語言處理 127
8.1.1 自然語言處理概述 127
8.1.2 機器學習 127
8.1.3 語料庫 128
8.1.4 HanLP環境搭建 128
8.2 中文分詞 129
8.2.1 中文分詞 129
8.2.2 詞典分詞 130
8.2.3 二元語法分詞 131
8.2.4 詞典的構建 132
8.3 命名實體識別 135
8.3.1 命名實體識別 135
8.3.2 基於規則的命名實體識別 135
8.3.3 基於預訓練模型的實體關系抽取 136
8.3.4 基於依存句法分析的實體關系抽取 136
8.3.5 財經文本命名實體識別 137
8.4 信息提取 138
8.4.1 關鍵詞提取 138
8.4.2 關鍵句提取 139
8.4.3 情感分析 140
8.5 綜合訓練 141
參考文獻 142
第9章 自然語言處理:金融文本摘要 143
9.1 文本摘要自動生成概述 143
9.1.1 研究背景與問題定義 143
9.1.2 技術分類與實現方法 143
9.1.3 評價指標與數據集 144
9.2 偏好構建模塊 145
9.2.1 獲取偏好文本 145
9.2.2 文本預處理 145
9.2.3 LDA主題模型 147
9.2.4 構建偏好語料庫 148
9.3 鎖定段落中心句 149
9.3.1 獲取偏好文本關鍵詞 149
9.3.2 相似度計算 150
9.3.3 提取攜帶偏好的段落中心句 151
9.4 摘要生成模塊 154
9.4.1 依存句法分析 154
9.4.2 結構樹剪枝 157
參考文獻 159
第10章 自然語言處理:抽取實體關系 161
10.1 知識抽取任務概述 161
10.1.1 知識抽取任務定義 161
10.1.2 知識抽取任務分類 162
10.1.3 審計領域知識抽取任務 162
10.2 面向結構化數據的知識抽取 163
10.3 面向非結構化數據的知識抽取 164
10.3.1 深度學習與神經網絡 164
10.3.2 基於BERT模型的實體抽取方法 165
10.3.3 關系抽取方法 179
10.3.4 實體消歧 186
10.3.5 實體關系抽取結果保存 186
參考文獻 189
第11章 審計知識圖譜自動構建 190
11.1 知識圖譜 190
11.1.1 Neo4j介紹 191
11.1.2 Neo4j安裝教程 192
11.1.3 Neo4j啟動與服務器連接 194
11.2 Python操作Neo4j 196
11.2.1 安裝py2neo包 196
11.2.2 py2neo的基本用法 197
11.2.3 簡單圖數據庫編程實踐分析 203
11.3 審計知識圖譜的實現 205
11.3.1 案例分析1——讀取MySQL內容創建知識圖譜 206
11.3.2 案例分析2——讀取Excel文件數據創建審計知識圖譜 209
11.3.3 案例分析3-讀取結構化財經文本創建審計知識圖譜 214
11.3.4 案例分析4-多表信息創建知識圖譜 219
11.3.5 案例分析5-根據原始文本自動生成知識圖譜 231
參考文獻 233
第12章 審計應用:審計規則知識庫 234
12.1 用一階謂詞邏輯表示法表示知識 234
12.1.1 謂詞邏輯概述及其特點 234
12.1.2 謂詞、個體和量詞 235
12.1.3 聯結詞 236
12.1.4 謂詞公式定義及一階謂詞邏輯表示法的特點 236
12.1.5 謂詞公式表示知識的步驟及方法 236
12.2 審計規則知識庫的設計 237
12.2.1 審計規則表 238
12.2.2 新審計規則表 238
12.2.3 謂詞邏輯表 238
12.3 程序示例 239
12.3.1 程序整體流程 239
12.3.2 制定規則的謂詞邏輯表達式 239
12.3.3 設計數據表 240
12.3.4 連接數據庫 241
12.3.5 更新替換數據表 242
12.3.6 查詢數據庫中的數據表 243
12.3.7 判斷數據表中的數據是否為正確規則 243
12.3.8 更新、清洗、合並數據表中的審計規則 245
12.3.9 完整代碼 246
參考文獻 252
第13章 實踐:綜合風險審計 253
13.1 審計語義網絡構建 253
13.1.1 審計實體定義 253
13.1.2 審計關系定義 254
13.2 傳統審計中的邏輯推理 256
13.3 審計推理機 256
13.4 審計風險路徑探索實戰 259
參考文獻 268
第14章 實踐:審計報告自動生成 270
14.1 python-docx的基礎知識 270
14.1.1 python-docx的下載與使用 270
14.1.2 python-docx的基礎操作 270
14.2 審計報告中字體的設置 273
14.2.1 設置中文字體 273
14.2.2 設置字號與字體顏色 274
14.2.3 段落中新增文字 274
14.3 審計報告中段落的修改 275
14.3.1 對齊方式 275
14.3.2 縮進方式 275
14.3.3 行距與段落間距 275
14.3.4 編號與項目符號 276
14.4 自動生成審計報告的實戰演練 276
參考文獻 279