人工智能與大數據(捲1):基礎概念和模型
[新加坡]周誌華(Chew Chee Hua)
- 出版商: 人民郵電
- 出版日期: 2022-04-01
- 定價: $719
- 售價: 6.6 折 $475
- 語言: 簡體中文
- 頁數: 289
- ISBN: 7115575754
- ISBN-13: 9787115575753
-
相關分類:
Machine Learning、R 語言、Data-visualization、大數據 Big-data
立即出貨 (庫存 < 3)
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書介紹了人工智能和大數據涉及的核心概念和模型。書中涉及概念包括監督和非監督學習、數據類型、可視化、線性回歸、邏輯回歸、分類回歸樹、神經網絡等。同時,本書理論和實際並重,基於真實的實例和數據集,引入了R語言演示實際計算和操作,為讀者展示解決實際問題的代碼,從而讓讀者掌握在實際生活中解決相關問題的方法。
本書適合想要綜合學習人工智能、大數據和數據科學,尤其是想要依靠這些學科解決實際問題的人學習,也適合作為相關課程的參考教材。
作者簡介
Chew Chee Hua(中文名:周誌華),新加披南洋理工大學高級講師,主講課程包括分析學、機器學習、商業分析及應用機器學習、分析戰略等。曾為政府機構、銀行、保險公司、醫院和大型企業設計和領導高級分析解決方案。
目錄大綱
第 1 章 介紹和概述 . 1
1.1 主要的成功案例和應用 .1
1.1.1 Netflix 的 120 億美元營收目標 .1
1.1.2 在醫院急診部使用有限的信息拯救生命 .3
1.1.3 癌癥診斷與損傷預後 .5
1.1.4 從零開始使用低預算連續贏得 20 場比賽 .6
1.1.5 殼牌公司深海石油鑽探的預測性資產維護 .7
1.1.6 預測選舉結果 .8
1.1.7 星展銀行預測現金需求和優化調度 .9
1.1.8 新加坡稅務局檢測稅務欺詐 .10
1.1.9 違規和欺詐貸款風險檢測 .11
1.2 適合 ADA 解決的問題特徵 .12
1.3 數據分析、數據科學和人工智能的區別 .13
1.4 analysis 和 analytics .14
1.5 組織 ADA 能力的發展曲線 .15
1.6 規劃、開發和部署 ADA .18
1.7 四大預測模型 .19
第 2 章 基本概念和原則. 21
2.1 本章目標 .21
2.2 可視化和模型 .21
2.3 監督學習和無監督學習 .24
2.4 模型的可解釋性 .25
2.5 原則 1:正確模型不唯一 .26
2.5.1 模型和等式 .28
2.5.2 評估預測模型 .29
2.6 原則 2:訓練數據和測試數據分離 . 31
2.6.1 在訓練 - 測試拆分前進行分層 .33
2.6.2 有效地執行分層和訓練 - 測試拆分 .34
2.6.3 訓練集與測試集之間的權衡 .39
2.7 原則 3:風險校正模型 . 39
2.7.1 多項式插值定理的影響 .40
2.7.2 模型復雜度 .41
第 3 章 數據探索和摘要. 47
3.1 本章目標 .47
3.2 數據初探和 R 語言的 data.table .47
3.2.1 data.table 的語法 .48
3.2.2 示例:2014 年的紐約航班 .48
3.2.3 行篩選 .51
3.2.4 列排序 .52
3.2.5 篩選幾列並進行重命名 .53
3.2.6 進一步的數據探索和問題 .53
3.3 公共享途微觀樣本數據 .59
3.3.1 探索 PUMS 中的健康保險覆蓋面數據 .60
3.3.2 在 R 中導入數據和摘要概述 .61
3.3.3 缺失值概述 .66
3.3.4 繪制單一連續變量的圖形摘要—概率密度 .67
3.3.5 繪制單一分類變量的圖形摘要—條形圖 .71
3.3.6 繪制分類變量X 和連續變量Y 的圖形摘要—箱線圖 .73
3.3.7 繪制連續變量X 和連續變量Y 的圖形摘要—散點圖 .75
3.3.8 繪制連續變量X 和分類變量X 的圖形摘要—抖動
散點圖 .76
3.4 結論 .79
第 4 章 數據結構和可視化 . 83
4.1 本章目標 .83
4.2 數據結構的格式 .83
4.3 檢查數據結構 .85
4.3.1 連續數據和分類數據 .85
4.3.2 定類數據與定序數據 .87
4.4 可視化 .90
4.5 結論 .93
第 5 章 數據清洗和準備. 95
5.1 本章目標 .95
5.2 缺失值 .95
5.2.1 更正不一致的缺失值記錄 .96
5.2.2 NA 和 NULL .98
5.2.3 處理(真實存在的)缺失值 .99
5.3 處理分類數據中的 NA 和錯誤值 .100
5.4 處理連續數據中的 NA 和錯誤值 .100
5.5 結論 .102
第 6 章 線性回歸:最佳實踐. 105
6.1 本章目標 .105
6.2 相關性 .105
6.2.1 強相關和因果關系 .108
6.2.2 強相關和直線關系 .109
6.2.3 弱相關性和無趨勢 .110
6.3 單輸入變量的線性回歸 .112
6.4 多重R 方和調整R 方 .115
6.5 線性回歸方程和線性回歸模型 .117
6.6 模型診斷圖 .118
6.7 有影響力的異常值 .119
6.8 向模型中增加一個二次項 .121
6.9 多因子的線性回歸 .123
6.10 訓練 - 測試拆分 .135
6.11 結論 .137
第 7 章 邏輯回歸:最佳實踐. 140
7.1 本章目標 .140
7.2 相對風險和勝算比 .140
7.3 單一連續輸入變量的二元邏輯回歸 .145
7.3.1 示例: 基於學習時長預測考試結果 .148
7.3.2 邏輯回歸的混淆矩陣 .152
7.4 多輸入變量的二元邏輯回歸 .154
7.5 多元邏輯回歸 .159
7.5.1 多分類值Y 的邏輯函數 .160
7.5.2 示例:影響服務評級的因素 .161
7.6 結論 .166
第 8 章 分類回歸樹 . 171
8.1 本章目標 .171
8.2 預測心臟病發作的模型和要求 .172
8.3 階段 1:使用二分法將樹增長到最大值 .175
8.3.1 度量分類變量結點的雜質 .176
8.3.2 CART 樹的增長過程 .179
8.4 階段 2:用最弱連接剪枝法將樹修剪到最小值 .180
8.4.1 最弱連接剪枝 .182
8.4.2 rpart 包中的α 和cp .185
8.4.3 k 折交叉驗證和 1 標準誤差規則 .185
8.5 示例:CART 模型在定向信用卡營銷中的運用
(Y 為分類數據) .187
8.6 示例:CART 模型在汽車燃油效率中的運用
(Y 為連續數據) .198
8.7 通過代理項自動處理缺失值 .205
8.8 結論 .211
8.9 rpart 包的重要函數和參數總結 .212
第 9 章 神經網絡. 219
9.1 本章目標 .219
9.2 大腦處理信息過程的建模 .220
9.3 信息的處理、關聯和傳輸 .221
9.4 示例:巧克力口味測試 .222
9.5 通過增加權重訓練神經網絡 .226
9.5.1 反向傳播 .226
9.5.2 彈性反向傳播和權重回溯 .228
9.6 設計神經網絡需要考慮的細節 .229
9.6.1 規範所有輸入變量的取值範圍 .229
9.6.2 限制網絡復雜度 .230
9.6.3 neuralnet 和 nnet .230
9.7 示例:不孕風險 .231
9.8 結論 .236、
第 10 章 字符串和文本挖掘 . 240
10.1 本章目標 .240
10.2 處理字符串 .240
10.3 基本的文本挖掘概念 .247
10.3.1 示例:對期刊標題進行分析的字符串操作 .249
10.3.2 示例:對期刊標題分析的文本挖掘操作 .252
10.3.3 文檔要素矩陣 .256
10.3.4 非索引字 .257
10.4 情緒分析 .259
10.5 結論 .266
第 11 章 結束感想和後續計劃. 269
附錄 A R 和 RStudio 的安裝 . 271
A.1 下載安裝 R .271
A.2 下載安裝 RStudio .273
A.3 在 RStudio 中將 R 升級到最新版本 .274
附錄 B 基本的 R 命令和腳本 . 275
B.1 RStudio 界面的 4 個面板 .275
B.2 檢查和設置工作目錄 .280
B.3 將數據輸入 RStudio .281
B.4 R 中的對象命名約定 .284
B.5 R 中的通用運算符 .285
B.6 R 函數 .285
B.7 創建你自己的 R 函數 .287
B.8 練習 R .288


