Java 機器學習 (Machine Learning in Java) Java机器学习

博思蒂安·卡魯扎 (Bostjan Kaluza)

立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

本書介紹如何使用Java創建並實現機器學習算法,既有基礎知識,又提供實戰案例。

主要內容包括:機器學習基本概念、原理,Weka、Mahout、Spark等常見機器學習庫的用法,各類機器學習常見任務,包括分類、預測預報、購物籃分析、檢測異常、行為識別、圖像識別以及文本分析。

最後還提供了相關Web資源、各種技術研討會議以及機器學習挑戰賽等進階所需內容。

本書適合機器學習入門者,尤其是想使用Java機器學習庫進行數據分析的讀者。

作者簡介

Bostjan Kaluza

博士,人工智能與機器學習專家,現任Evolven公司(領先的IT運營分析公司,致力於配置管理業務)首席數據科學家,主攻機器學習、預測分析、模式挖掘與異常檢測,旨在把數據轉化為人類可理解的信息與可供實用的知識。

更多信息請訪問http://bostjankaluza.net。

目錄大綱

第1章機器學習應用快速入門
1.1機器學習與數據科學
1.1.1機器學習能夠解決的問題
1.1.2機器學習應用流程
1.2數據與問題定義
1.3數據收集
1.3.1發現或觀察數據
1.3.2生成數據
1.3.3採樣陷阱
1.4數據預處理
1.4.1數據清洗
1.4.2填充缺失值
1.4.3剔除異常值
1.4.4數據轉換
1.4.5數據歸約
1.5無監督學習
1.5.1查找相似項目
1.5.2聚類
1.6監督學習
1.6.1分類
1.6.2回歸
1.7泛化與評估
1.8小結
第2章面向機器學習的Java庫與平台
2.1Java環境
2.2機器學習庫
2.2.1Weka 
2.2.2Java機器學習
2.2.3ApacheMahout 
2.2 .4ApacheSpark 
2.2.5Deeplearning4j 
2.2.6MALLET 
2.2.7比較各個庫
2.3創建機器學習應用
2.4處理大數據
2.5小結
第3章基本算法——分類、回歸、聚類
3.1開始之前
3.2分類
3.2.1數據
3.2.2加載數據
3.2.3特徵選擇
3.2.4學習算法
3.2.5對新數據分類
3.2.6評估與預測誤差度量
3.2.7混淆矩陣
3.2.8選擇分類算法
3.3回歸
3.3.1加載數據
3.3.2分析屬性
3.3.3創建與評估回歸模型
3.3.4避免常見回歸問題的小技巧
3.4聚類
3.4. 1聚類算法
3.4.2評估
3.5小結
第4章利用集成方法預測客戶關係
4.1客戶關係數據庫
4.1.1挑戰
4.1.2數據集
4.1.3評估
4.2最基本的樸素貝葉斯分類器基準
4.2.1獲取數據
4.2.2加載數據
4.3基準模型
4.3.1評估模型
4.3.2實現樸素貝葉斯基準線
4.4使用集成方法進行高級建模
4.4.1開始之前
4.4.2數據預處理
4.4.3屬性選擇
4.4 .4模型選擇
4.4.5性能評估
4.5小結
第5章關聯分析
5.1購物籃分析
5.2關聯規則學習
5.2.1基本概念
5.2.2Apriori算法
5.2.3FP—增長算法
5.2.4超市數據集
5.3發現模式
5.3.1Apriori算法
5.3. 2FP—增長算法
5.4在其他領域中的應用
5.4.1醫療診斷
5.4.2蛋白質序列
5.4.3人口普查數據
5.4.4客戶關係管理
5.4.5IT運營分析
5.5小結
第6章使用ApacheMahout製作推薦引擎
6.1基本概念
6.1.1關鍵概念
6.1.2基於用戶與基於項目的分析
6.1.3計算相似度的方法
6.1.4利用與探索
6.2獲取ApacheMahout 
6.3創建一個推薦引擎
6.3.1圖書評分數據集
6.3.2加載數據
6.3.3協同過濾
6.4基於內容的過濾
6.5小結
第7章欺詐與異常檢測
7.1可疑與異常行為檢測
7.2可疑模式檢測
7.3異常模式檢測
7.3.1分析類型
7.3.2事務分析
7.3.3規劃識別
7.4保險理賠欺詐檢測
7.4.1數據集
7.4.2為可疑模式建模
7.5網站流量異常檢測
7.5.1數據集
7.5.2時序數據中的異常檢測
7.6小結
第8章利用Deeplearning4j進行圖像識別
8.1圖像識別簡介
8.2圖像分類
8.2.1Deeplearning4j 
8.2.2MNIST數據集
8.2.3加載數據
8.2.4創建模型
8.3小結
第9章利用手機傳感器進行行為識別
9.1行為識別簡介
9.1.1手機傳感器
9.1.2行為識別流水線
9.1.3計劃
9.2從手機收集數據
9.2.1安裝AndroidStudio 
9.2.2加載數據採集器
9.2.3收集訓練數據
9.3創建分類器
9.3.1減少假性轉換
9.3.2將分類器嵌入移動應用
9.4小結
第10章利用Mallet進行文本挖掘——主題模型與垃圾郵件檢測
10.1文本挖掘簡介
10.1.1主題模型
10.1.2文本分類
10.2安裝Mallet 
10.3使用文本數據
10.3.1導入數據
10.3.2對文本數據做預處理
10.4為BBC新聞做主題模型
10.4.1BBC數據集
10.4.2建模
10.4.3評估模型
10.4.4重用模型
10.5垃圾郵件檢測
10.5.1垃圾郵件數據集
10.5.2特徵生成
10.5.3訓練與測試模型
10.6小結
第11章機器學習進階
11.1現實生活中的機器學習
11.1.1噪聲數據
11.1.2類不平衡
11.1. 3特徵選擇困難
11.1.4模型鏈
11.1.5評價的重要性
11.1.6從模型到產品
11.1.7模型維護
11.2標準與標記語言
11.2.1CRISP—DM 
11.2.2SEMMA方法
11.2.3預測模型標記語言
11.3雲端機器學習
11.4Web資源與比賽
11.4.1數據集
11.4.2在線課程
11.4.3比賽
11.4.4網站與博客
11.4.5場館與會議
11.5小結