人工智能數據工程基礎——概念、方法與案例

聶明,連建國

  • 出版商: 電子工業
  • 出版日期: 2026-07-01
  • 售價: $354
  • 語言: 簡體中文
  • 頁數: 280
  • ISBN: 7121527529
  • ISBN-13: 9787121527524
  • 相關分類: AI Coding
  • 尚未上市,歡迎預購

商品描述

本書是“人工智能數據工程技術專業核心課程系列教材”的第一本,系統介紹人工智能數據工程的基本概念、方法體系與關鍵技術。通過圖像、音頻和文本三個典型數據集的設計與生產案例,詳細闡述數據采集、預處理、標註、質量控制與評估、工具選型及應用等,幫助讀者深入理解數據工程從需求分析到成果交付的完整工作流程。本書註重理論與實踐緊密結合,配備豐富的實踐項目和案例分析,幫助讀者熟練掌握數據產品設計、生產、驗收等環節中的主流技術與工具,培養解決實際問題的工程能力,滿足當前人工智能產業對數據工程專業人才的崗位技能需求。本書可作為人工智能數據工程相關專業的教材,也可供人工智能從業人員參考閱讀。

目錄大綱

第1章 人工智能數據工程概述 001
1.1 引言 001
1.1.1 人工智能數據工程的含義 001
1.1.2 人工智能數據工程師 002
1.2 數據的來源與分類 002
1.2.1 典型大模型使用的主要數據來源 002
1.2.2 通用數據類別 003
1.2.3 專業數據類別 005
1.2.4 數據的模態與類型 009
1.3 數據集的概念與作用 012
1.3.1 數據集的定義與分類 012
1.3.2 數據集在模型訓練中的作用 015
1.3.3 優質數據集的特征 016
1.4 人工智能數據工程解讀 017
1.4.1 人工智能數據工程的實現方法 017
1.4.2 數據產品的生產流程 017
1.4.3 數據工程在AI項目中的位置 020
1.5 數據服務產業的發展現狀與人才需求 022
1.5.1 數據服務產業的發展現狀 022
1.5.2 人才需求分析 024
1.5.3 職業發展路徑 027
1.6 習題 029
第2章 數據產品的工程化生產 031
2.1 數據產品的含義 031
2.1.1 數據產品的定義與特征 031
2.1.2 案例分析:ImageNet數據產品的構建 033
2.2 數據產品生產的全流程 036
2.2.1 需求分析 036
2.2.2 產品設計 037
2.2.3 數據獲取 038
2.2.4 數據預處理 038
2.2.5 數據標註 039
2.2.6 質量控制 040
2.2.7 產品交付 040
2.2.8 數據產品的疊代升級 041
2.3 數據產品生產的組織與管理 041
2.3.1 項目管理 041
2.3.2 數據管理 043
2.3.3 質量控制 044
2.4 數據產品生產的工具與平臺 045
2.4.1 數據生產平臺架構 045
2.4.2 常用工具與技術 046
2.4.3 平臺的實施與運維 048
2.5 數據標註專項訓練 050
2.5.1 Label Studio簡介 050
2.5.2 Label Studio的安裝與啟動 051
2.5.3 CatDog20圖片分類標註項目實戰 053
2.5.4 文本情感分析標註項目示例 058
2.5.5 多模態圖文對齊標註項目示例 059
2.6 習題 062
第3章 開源數據的利用與整合 063
3.1 開源數據的概念與意義 063
3.1.1 開源數據的概念 063
3.1.2 開源數據的優勢與案例 064
3.1.3 開源數據的局限 065
3.2 常用的開源數據集 065
3.2.1 圖像數據集 066
3.2.2 文本數據集 066
3.2.3 音頻數據集 067
3.2.4 視頻數據集 068
3.2.5 網頁數據集 069
3.3 開源數據的獲取與使用 069
3.3.1 數據許可協議解讀 069
3.3.2 數據預處理與適配 070
3.3.3 數據質量評估 071
3.4 開源數據在數據產品生產中的應用 072
3.4.1 利用開源數據擴充數據集 072
3.4.2 處理開源數據的挑戰 073
3.5 習題 074
第4章 數據獲取 075
4.1 網絡爬蟲數據獲取 075
4.1.1 網絡爬蟲技術原理 075
4.1.2 爬取策略與反爬機制 076
4.1.3 數據清洗與存儲 078
4.1.4 法律與倫理考慮 080
4.2 眾包數據獲取 081
4.2.1 眾包模式介紹 081
4.2.2 眾包任務的設計與發布 082
4.2.3 質量控制與數據收集 083
4.3 傳感器與設備數據獲取 084
4.3.1 設備選型與部署 084
4.3.2 數據采集與存儲 085
4.3.3 數據傳輸與安全 087
4.4 合成數據的生成 088
4.4.1 合成數據的概念與應用 088
4.4.2 典型合成數據生產方法解析 089
4.4.3 合成數據的質量評估 091
4.4.4 數據生成的未來發展方向 092
4.5 開源數據集整合 093
4.6 API數據獲取 094
4.7 數據合作與共享 095
4.8 實驗與研究數據采集 095
4.9 數據獲取方法小結 096
4.10 習題 097
第5章 圖像處理與數據集生產案例 098
5.1 認識像素 098
5.1.1 像素的數字表示 098
5.1.2 像素在計算機中的存儲方式 102
5.1.3 像素操作與基本圖像處理 104
5.1.4 圖像分辨率與顯示分辨率 105
5.2 圖像處理技術 106
5.2.1 圖像的基本特征參數 106
5.2.2 圖像的高級特征參數 111
5.2.3 圖像數據的分類與特性 115
5.3 圖像數據的公開數據源 118
5.3.1 開源圖像數據集的種類 119
5.3.2 開源圖像數據集的特征 120
5.3.3 典型公開圖像數據集解析 121
5.3.4 圖像數據的操作 123
5.4 水果分類數據集生產項目 124
5.4.1 項目背景與目標 125
5.4.2 數據集需求分析 125
5.4.3 數據獲取 126
5.4.4 數據處理 128
5.4.5 數據標註 130
5.4.6 質量控制與驗證 133
5.4.7 數據集交付與發布 134
5.4.8 項目總結 135
5.5 習題 136
第6章 音頻處理與數據集生產案例 137
6.1 音頻技術基礎 137
6.1.1 聲音與音頻內涵解析 137
6.1.2 人的聽覺與智慧聽覺技術 138
6.1.3 音頻信號的分類與特性 140
6.1.4 數字音頻的編碼方式和存儲格式 148
6.2 音頻數據的分類與音頻數據集 152
6.2.1 音頻數據的種類、特征與應用 152
6.2.2 語音數據集的分類與特征 157
6.2.3 典型公開語音數據集介紹 159
6.2.4 音頻數據的處理操作 162
6.3 音頻數據的公開數據源 169
6.3.1 開源音頻數據集的種類 169
6.3.2 開源音頻數據集的特征 170
6.3.3 典型公開音頻數據集解析 171
6.3.4 音頻數據的基本處理操作與樣板數據集展示 175
6.4 城市聲音數據集生產項目 178
6.4.1 項目背景與目標 178
6.4.2 數據集需求分析 179
6.4.3 數據獲取 179
6.4.4 音頻數據預處理 182
6.4.5 數據標註 187
6.4.6 質量控制與驗證 190
6.4.7 數據集交付與發布 191
6.4.8 項目總結 194
6.5 習題 194
第7章 文本處理與數據集生產案例 196
7.1 文本數據技術基礎 196
7.1.1 文本數據的特性 196
7.1.2 文本數據的表示方法 198
7.1.3 特殊文本的種類與表示方法 201
7.1.4 特殊文本表示的程序實現 202
7.1.5 GPT的文本表示方法和代碼實現 204
7.2 文本數據的來源、分類與公開數據集 206
7.2.1 文本數據的來源 206
7.2.2 文本數據集的分類與特征 210
7.2.3 典型公開文本數據集介紹 211
7.2.4 文本數據的基本操作 212
7.3 中文文本數據集生產項目 219
7.3.1 項目背景與目標 219
7.3.2 數據集需求分析 220
7.3.3 數據獲取 221
7.3.4 數據處理 222
7.3.5 手工數據標註 223
7.3.6 Label Studio半自動化標註 227
7.3.7 數據集質量控制與驗收 237
7.3.8 數據集保存與使用 240
7.3.9 項目總結 241
7.4 習題 241
第8章 數據工程的機遇、挑戰與未來 242
8.1 數據成為大模型時代的核心驅動力 242
8.1.1 人工智能發展對數據的需求 242
8.1.2 數據工程技術趨勢 243
8.2 數據質量與閉環流程 245
8.2.1 數據質量四維度 245
8.2.2 數據閉環流程 246
8.3 數據工程師的職業發展 247
8.3.1 職業發展路徑 247
8.3.2 面向未來的思考 248
8.3.3 數據工程師從支持到AI核心 248
8.4 數據工程未來趨勢 249
8.4.1 AI與數據工程的深度融合 249
8.4.2 開源與協作的力量 249
8.4.3 數據治理與合規的智能化 249
8.4.4 合成數據的機遇與挑戰 250
8.4.5 實時/流式數據管道的崛起 250
8.4.6 數據工程:支撐AI落地與AGI的到來 250
8.5 習題 251
附錄A 開發環境安裝與配置 253
附錄B 數據工程術語表 258
附錄C 專業化數據采集與標註實訓平臺 265
參考文獻 268