相關主題
商品描述
本書基於DeepSeek模型,詳細介紹RAG技術的原理與實戰應用知識。本書共分為9章,從RAG基礎概念、數據收集與處理、文本檢索與生成技術到模型訓練、優化與動態RAG的構建,全面覆蓋了RAG開發的核心技術要點。書中詳細講解了向量化技術、檢索算法、多模態嵌入及文本生成算法的實現過程,並提供了豐富的實際案例。此外,本書還特別介紹了如何利用多個模型構建高效的聊天助手,結合前沿的動態RAG方法提升系統性能。本書不僅涵蓋標準RAG的構建與提示工程,還深入講解了 RAG技術,如分塊與向量化、重排與過濾、智能查詢路由與響應合成等內容,並探討了RAG的融合與評估方法。通過一系列系統化的案例與實操講解,幫助讀者全面掌握RAG技術的理論與實踐。無論你是人工智能領域的技術開發者、學術研究人員、高校師生,還是對大模型及檢索生成技術感興趣的初學者,本書都將為你提供從入門到進階的 指導,助你在RAG開發與應用中獲得深刻的理解與技能提升。
目錄大綱
第1章 RAG開發基礎 001
1.1 初步認識RAG 002
1.1.1 RAG的提出背景 002
1.1.2 RAG的工作原理 002
1.1.3 RAG的勢 003
1.1.4 RAG的挑戰 004
1.2 RAG的架構 005
1.2.1 資料準備段 005
1.2.2 應用段 006
1.3 標準RAG 007
1.3.1 標準RAG的實現流程 007
1.3.2 提示工程 007
1.4 高級RAG 008
1.4.1 分塊與向量化 008
1.4.2 搜尋索引 008
1.4.3 重排與過濾 009
1.4.4 查詢轉換 010
1.4.5 聊天引擎 010
1.4.6 查詢路由 011
1.4.7 智能體 011
1.4.8 響應合成 011
1.5 開發前的準備工作 011
1.5.1 RAG開發技術堆疊 012
1.5.2 用Ollama本地署DeepSeek模型 012
1.5.3 申請DeepSeek API金鑰 014
1.6 RAG程序實戰體驗 015
1.6.1 基於本地DeepSeek模型的AI助理 016
1.6.2 基於DeepSeek API的AI助理 017
第2章 資料收集與處理 020
2.1 資料收集 021
2.1.1 選擇資料來源的因素 021
2.1.2 常用的資料收集工具 022
2.2 資料增強 023
2.2.1 資料增強的常用方法 023
2.2.2 文字資料增強 024
2.2.3 基於LLM標註的標籤混合 025
2.2.4 文字擴充增強 026
2.2.5 數據合成 028
2.2.6 噪音註入 033
2.2.7 魯棒性 036
2.2.8 數據標註和對齊 040
2.3 徵提取 044
2.3.1 徵的基本概念與作用 044
2.3.2 嵌入 045
2.3.3 詞袋模型 046
2.3.4 TF-IDF徵 047
第3章 文本檢索 049
3.1 文字檢索簡介 050
3.1.1 文本檢索的相關概念 050
3.1.2 RAG應用中的檢索模型 050
3.1.3 傳統檢索模型 051
3.1.4 現代經檢索模型演進 051
3.2 檢索演算法分類與實作 052
3.2.1 統計檢索演算法 052
3.2.2 語意檢索演算法 056
3.2.3 近似近鄰檢索原理與化 060
3.2.4 Elasticsearch檢索 062
3.3 向量化技術 065
3.3.1 向量化技術簡介 065
3.3.2 詞向量技術 065
3.3.3 上下文感知嵌入 067
3.3.4 文檔級向量化策略 070
3.3.5 句子嵌入 072
第4章 文本生成技術與可控輸出 074
4.1 生成式模型基礎 075
4.1.1 文本生成範式 075
4.1.2 RAG應用程式中的文本生成 075
4.2 主流生成模型架構 077
4.2.1 RNN/LSTM的序列產生 077
4.2.2 Transformer核心機制 089
4.2.3 預訓練語言模式的演進總結 091
4.3 生成控制技術 092
4.3.1 解碼策略 092
4.3.2 參數調控 095
4.3.3 約束生成 098
4.3.4 與倫理過濾機制 099
4.4 基於本地PDF圖書內容的AI問答系統 101
4.4.1 項目介紹 101
4.4.2 準備環境 102
4.4.3 語言模型的整合與化 104
4.4.4 基於LangChain的多重文檔檢索器 111
4.4.5 系統測試 118
第5章 RAG模型的訓練與調 122
5.1 模型訓練流程 123
5.2 核心訓練技術 124
5.2.1 預訓練與微調 124
5.2.2 多工學習 127
5.2.3 註意力機制與改進 130
5.2.4 對比學習與負採樣化 132
5.2.5 遷移學習與微調 135
5.2.6 調整動態學習率 137
5.2.7 混合度訓練與分散式訓練 140
5.3 基於DeepSeek和RAG的本地知識庫系統 142
5.3.1 RAG架構 143
5.3.2 基於本地書籍知識的RAG程序 143
5.3.3 本地知識庫系統 149
5.4 微調DeepSeek-R1-Distill-Qwen模型 152
5.4.1 DeepSeek-R1-Distill-Qwen介紹 152
5.4.2 具體實現 153
第6章 模型評估與化策略 162
6.1 模型評估基礎 163
6.1.1 模型評估的要性 163
6.1.2 常用的評估指標 164
6.2 模型的性能評估 167
6.2.1 單模態模型的效能評估 167
6.2.2 多模態模型融合性能評估 169
6.2.3 效率評估 170
6.2.4 端對端評估指標 172
6.3 模型驗證方法論 174
6.3.1 資料準備與分割 174
6.3.2 交驗證與對抗樣本測試 176
6.3.3 模型穩健性驗證 181
6.4 模型化技術進 183
6.4.1 檢索器化 183
6.4.2 生成器化 185
6.4.3 系統級化 186
6.5 基於RAG、GRPO和DeepSeek的問答系統 187
6.5.1 項目介紹 187
6.5.2 準備訓練環境 188
6.5.3 載入並配置DeepSeek R1模型 190
6.5.4 初始化向量資料庫集合 190
6.5.5 模型評估 191
6.5.6 基於GRPO的RAG 193
6.5.7 基於RAG與GRPO的訓練 198
6.5.8 文本嵌入與資料準備 199
6.5.9 主函數 200
第7章 嵌入表示與產生 203
7.1 大模型嵌入基礎 204
7.1.1 大模型嵌入介紹 204
7.1.2 大模型嵌入的應用 204
7.2 影像嵌入 205
7.2.1 影像嵌入介紹 205
7.2.2 影像徵提取 206
7.2.3 模態對齊 209
7.2.4 CLIP模型 212
7.2.5 DALL-E模型 213
7.3 文本嵌入 215
7.3.1 大模型中的文字嵌入 215
7.3.2 基於CLIP模型的文本嵌入 217
7.4 音訊嵌入 218
7.4.1 音頻徵提取 218
7.4.2 常用音訊嵌入模型 220
7.5 基於CLIP大模型的影像搜尋引擎 223
7.5.1 項目介紹 223
7.5.2 CLIP大模型的設定參數 224
7.5.3 資料集處理 225
7.5.4 實現Bangla CLIP模型 229
7.5.5 基於文字的圖像搜尋 231
7.5.6 基於Streamlit的Web客戶端 232
第8章 動態RAG 235
8.1 動態RAG概述 236
8.1.1 動態RAG與傳統RAG的差異 236
8.1.2 動態RAG的適用場景 237
8.2 動態檢索模組 238
8.2.1 即時資料流的存取與處理 238
8.2.2 動態索引建構 242
8.2.3 檢索結果的即時更新 245
8.3 動態生成模組 248
8.3.1 基於即時情境的生成 248
8.3.2 動態提示設計 251
8.3.3 多模態生成的動態適配 254
8.3.4 動態生成中的一性與連貫性 256
8.4 動態RAG的化技術 257
8.4.1 動態環境中的微調策略 257
8.4.2 線上學習與模型更新 260
8.4.3 動態檢索與產生的協同化 263
8.4.4 動態負載平衡 266
第9章 基於多模型的聊天助理(DeepSeek/ Ollama/ChromaDB/JWT/OpenAI+LangChain) 269
9.1 項目介紹 270
9.2 系統配置 271
9.2.1 設定API密鑰 271
9.2.2 Docker配置 273
9.3 後端模組 276
9.3.1 資料庫模型 276
9.3.2 大模型服務封裝 279
9.3.3 向量資料庫的封裝與管理 281
9.3.4 檔案儲存與身分封裝 284
9.3.5 業務服務與API路由 286
9.3.6 Docker與署 300
9.3.7 FastAPI主介面 301
9.4 前端模組 301
9.4.1 入口與佈局 302
9.4.2 頁面模組 305
9.5 調試運行 315
