特徵工程入門與實踐 (Feature Engineering Made Easy)
[土]錫南·厄茲代米爾(Sinan Ozdemir),迪夫婭·蘇薩拉(Divya Susarla)
- 出版商: 人民郵電
- 出版日期: 2019-06-01
- 定價: $354
- 售價: 7.9 折 $280
- 語言: 簡體中文
- ISBN: 7115511640
- ISBN-13: 9787115511645
-
相關分類:
DeepLearning、Machine Learning
- 此書翻譯自: Feature Engineering Made Easy
-
相關翻譯:
特徵工程不再難:資料科學新手也能輕鬆搞定! (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems) (繁中版)
銷售排行:
🥈 2019/10 簡體中文書 銷售排行 第 2 名
立即出貨
買這商品的人也買了...
-
Bad Data 技術手冊 (Bad Data Handbook: Cleaning Up The Data So You Can Get Back To Work)$480$379 -
時間序列分析$1,000$900 -
$305圖解機器學習 -
程序員的數學3 : 線性代數$474$450 -
寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)$390$308 -
Deep Learning|用 Python 進行深度學習的基礎理論實作$580$458 -
$147程序員的數學 -
Deep learning 深度學習必讀 - Keras 大神帶你用 Python 實作 (Deep Learning with Python)$1,000$790 -
A-Life|使用 Python 實作人工生命模型$520$411 -
$327機器學習:算法背後的理論與優化 -
$336精通特徵工程 (Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists) -
$352深度學習的數學 -
輕鬆學會 LINE 程式設計與 AI 聊天機器人實作開發$520$406 -
這就是服務設計!|服務設計工作者的實踐指南 (This Is Service Design Doing: Applying Service Design Thinking in the Real World)$880$695 -
輕鬆學會 Google TensorFlow 2.0 人工智慧深度學習實作開發$520$406 -
$756強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e) -
深度學習|生命科學應用 (Deep Learning for the Life Sciences)$580$458 -
LINE Bot 與人工智慧辨識開發實戰|使用 C# 與 Azure Cognitive Services (增訂版)$620$527 -
Python 技術者們 - 練功!老手帶路教你精通正宗 Python 程式 (The Quick Python Book, 3/e)$780$663 -
深度學習 (Deep Learning)(繁體中文版)$1,200$1,020 -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
機器學習工程師面試全破解:嚴選 124道 AI 演算法決勝題完整剖析$650$507 -
機器學習的數學基礎 : AI、深度學習打底必讀$580$458 -
$507聯邦學習 -
$458特徵工程的藝術:通用技巧與實用案例
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書將帶你瞭解特徵工程的完整過程,使機器學習更加系統、高效。
你會從理解數據開始學習,機器學習模型的成功正是取決於如何利用不同類型的特徵,例如連續特徵、分類特徵等。你將瞭解何時納入一項特徵、何時忽略一項特徵,以及其中的原因。你還會學習如何將問題陳述轉換為有用的新特徵,如何提供由商業需求和數學見解驅動的特徵,以及如何在自己的機器上進行機器學習,從而自動學習數據中的特徵。
目錄大綱
第1章 特徵工程簡介 1
1.1 激動人心的例子:AI驅動的聊天 1
1.2 特徵工程的重要性 2
1.3 特徵工程是什麼 5
1.4 機器學習演算法和特徵工程的評估 9
1.4.1 特徵工程的例子:真的有人能預測天氣嗎 10
1.4.2 特徵工程的評估步驟 10
1.4.3 評估監督學習演算法 11
1.4.4 評估無監督學習演算法 11
1.5 特徵理解:我的資料集裡有什麼 12
1.6 特徵增強:清洗數據 13
1.7 特徵選擇:對壞屬性說不 14
1.8 特徵構建:能生成新特徵嗎 14
1.9 特徵轉換:數學顯神通 15
1.10 特徵學習:以AI促AI 16
1.11 小結 17
第2章 特徵理解:我的資料集裡有什麼 19
2.1 資料結構的有無 19
2.2 定量資料和定性資料 20
2.3 資料的4個等級 25
2.3.1 定類等級 26
2.3.2 定序等級 27
2.3.3 定距等級 30
2.3.4 定比等級 36
2.4 資料等級總結 38
2.5 小結 40
第3章 特徵增強:清洗數據 41
3.1 識別資料中的缺失值 41
3.1.1 皮馬印第安人糖尿病預測資料集 42
3.1.2 探索性資料分析 42
3.2 處理資料集中的缺失值 48
3.2.1 刪除有害的行 50
3.2.2 填充缺失值 54
3.2.3 在機器學習流水線中填充值 57
3.3 標準化和歸一化 61
3.3.1 z分數標準化 63
3.3.2 min-max標準化 67
3.3.3 行歸一化 68
3.3.4 整合起來 69
3.4 小結 70
第4章 特徵構建:我能生成新特徵嗎 71
4.2 填充分類特徵 72
4.2.1 自訂填充器 74
4.2.2 自訂分類填充器 74
4.2.3 自訂定量填充器 76
4.3 編碼分類變量 77
4.3.1 定類等級的編碼 77
4.3.2 定序等級的編碼 79
4.3.3 將連續特徵分箱 80
4.3.4 創建流水線 82
4.4 擴展數值特徵 83
4.4.1 根據胸部加速度計識別動作的資料集 83
4.4.2 多項式特徵 86
4.5 針對文本的特徵構建 89
4.5.1 詞袋法 89
4.5.2 CountVectorizer 90
4.5.3 TF-IDF向量化器 94
4.5.4 在機器學習流水線中使用文本 95
4.6 小結 97
第5章 特徵選擇:對壞屬性說不 98
5.1 在特徵工程中實現*好的性能 99
5.2 創建基準機器學習流水線 103
5.3 特徵選擇的類型 106
5.3.1 基於統計的特徵選擇 106
5.3.2 基於模型的特徵選擇 117
5.4 選用正確的特徵選擇方法 125
5.5 小結 125
第6章 特徵轉換:數學顯神通 127
6.1 維度縮減:特徵轉換、特徵選擇與特徵構建 129
6.2 主成分分析 130
6.2.1 PCA的工作原理 131
6.2.2 鳶尾花資料集的PCA——手動處理 131
6.2.3 scikit-learn的PCA 137
6.2.4 中心化和縮放對PCA的影響 144
6.3 線性判別分析 148
6.3.1 LDA的工作原理 149
6.3.2 在scikit-learn中使用LDA 152
6.4 LDA與PCA:使用鳶尾花資料集 157
6.5 小結 160
第7章 特徵學習:以AI促AI 161
7.1 資料的參數假設 161
7.1.1 非參數謬誤 163
7.1.2 本章的演算法 163
7.2 受限玻爾茲曼機 163
7.2.1 不一定降維 164
7.2.2 受限玻爾茲曼機的圖 164
7.2.3 玻爾茲曼機的限制 166
7.2.4 數據重建 166
7.2.5 MNIST資料集 167
7.3 伯努利受限玻爾茲曼機 169
7.3.1 從MNIST中提取PCA主成分 170
7.3.2 從MNIST中提取RBM特徵 177
7.4.1 對原始圖元值應用線性模型 178
7.4.3 對提取的RBM特徵應用線性模型 179
7.5 學習文本特徵:詞向量 180
7.5.1 詞嵌入 180
7.5.2 兩種詞嵌入方法:Word2vec和GloVe 182
7.5.3 Word2vec:另一個淺層神經網絡 182
7.5.4 創建Word2vec詞嵌入的gensim包 183
7.5.5 詞嵌入的應用:資訊檢索 186
7.6 小結 190
第8章 案例分析 191
8.1 案例1:面部識別 191
8.1.1 面部識別的應用 191
8.1.2 數據 192
8.1.3 資料探索 193
8.1.4 應用面部識別 195
8.2 案例2:預測酒店評論資料的主題 200
8.2.1 文本聚類的應用 200
8.2.2 酒店評論數據 200
8.2.3 資料探索 201
8.2.4 聚類模型 203
8.2.5 SVD與PCA主成分 204
8.2.6 潛在語義分析 206
8.3 小結 210


