智能搜索:大數據搜索引擎原理及算法解析
沙蕓
- 出版商: 清華大學
- 出版日期: 2019-11-01
- 定價: $419
- 售價: 7.9 折 $331
- 語言: 簡體中文
- ISBN: 7302535507
- ISBN-13: 9787302535508
-
相關分類:
大數據 Big-data
立即出貨
買這商品的人也買了...
-
$294Elasticsearch大數據搜索引擎 -
$422DevOps 和自動化運維實踐 -
Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)$480$379 -
$189對話式交互設計原則與實踐 -
Programming Pearls, 2/e (中文新修版)(Programming Pearls, 2/e)$520$442 -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
機器學習實務|資料科學工作流程與應用程式開發及最佳化 (Machine Learning in Production: Developing and Optimizing Data Science Workflows and Applications)$580$493 -
極詳細 + 超深入:最新版 TensorFlow 1.x/2.x 完整工程實作$1,200$948 -
$354混沌工程實戰 手把手教你實現系統穩定性 -
$560全棧性能測試修煉寶典 JMeter 實戰, 2/e -
$556高效使用 Greenplum:入門、進階與數據中臺 -
嵌入式軟件自動化測試$414$393 -
$607使用 GitOps 實現 Kubernetes 的持續部署:模式、流程及工具 -
$556DevSecOps 原理、核心技術與實戰 -
$730機器學習項目交付實戰 -
Docker 與 Kubernetes 容器運維實戰$479$455 -
精通機器學習|使用 Scikit-Learn , Keras 與 TensorFlow, 3/e (Hands-On Machine Learning with Scikit-Learn, Keras, and Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems, 3/e)$1,200$948 -
$512Python 服務端測試開發實戰 -
寫程式前的必學工具:命令列、編輯器、Git/GitHub,軟體開發三本柱一次搞定$490$387 -
知識圖譜從0到1:原理與 Python 實戰$594$564 -
$621加速:高效能軟件交付之道 -
$419特徵工程訓練營 -
$407大模型測試技術與實踐 -
AI 超神筆記術:NotebookLM 高效資料整理與分析 250技$480$360 -
Raspberry Pi 5 + AI 創新實踐:電腦視覺與人工智慧應用指南$680$530
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
《智能搜索:大數據搜索引擎原理及算法解析》介紹大數據分佈式搜索引擎開發原理與技術實現,主要內容包括多種語言的文本處理、分佈式算法與代碼實現、Elasticsearch的使用與原理等,通過一個醫藥領域垂直搜索引擎和電商搜索來說明如何開發實際的大數據智能搜索引擎。《智能搜索:大數據搜索引擎原理及算法解析》共分6章,第1章著重介紹開發智能搜索引擎可以採用的軟硬件環境;第2~5章著重討論構建分佈式智能搜索引擎可能需要的多種語言文本處理方法,例如Kaldi語音識別實現和基於Raft共識協議的分佈式計算平臺實現;第6章介紹醫藥和電商搜索兩個應用案例。 《智能搜索:大數據搜索引擎原理及算法解析》適合作為高等院校電腦、軟件工程專業本科生、研究生的參考用書,對於對人工智能領域感興趣的人士也有一定的參考價值。
作者簡介
沙蕓,北京石油化工學院信息工程學院計算機系副主任,工學博士,副教授,碩士生導師,IEEE會員,北京市拔尖人才。多年從事圖像處理、模式識別、數據挖掘等領域的研究,主持北京市教委項目,參與多項國家自然基金等縱向課題,作為骨幹參與多項橫向課題。發表論文多篇,其中EI檢索15篇,軟件著作權一部。
目錄大綱
第1章 智能搜索引擎開發 1
1.1 人工智能與智能搜索引擎 1
1.2 Linux操作系統基礎 2
1.2.1 SSH遠程登錄 2
1.2.2 Micro文本編輯器 4
1.2.3 Linux Shell腳本基礎 4
1.2.4 Shell腳本 5
1.2.5 AWK 8
1.3 Java基礎 8
1.3.1 使用Ant 9
1.3.2 使用Maven 11
1.3.3 使用Gradle 13
1.3.4 使用Groovy Shell 16
1.3.5 使用JShell 17
1.4 Python基礎 17
1.4.1 Windows下安裝Python 17
1.4.2 Linux下安裝Python 17
1.4.3 開發環境 18
1.5 C#基礎 19
1.6 硬件基礎 21
1.7 本章小結 22
第2章 搜索引擎理解語義 23
2.1 處理文本 23
2.2 基於文法的語言模型 24
2.3 正則表達式查找文本 25
2.4 中文詞語切分與詞性標註 27
2.4.1 使用中文分詞 28
2.4.2 正向最大長度匹配法 30
2.4.3 未登錄串識別 31
2.4.4 基本的N元模型 34
2.5 隱馬爾可夫模型 43
2.5.1 數據基礎 43
2.5.2 維特比算法 44
2.6 英文文本切分與標註 48
2.6.1 句子切分 48
2.6.2 標註詞性 50
2.7 命名實體識別 52
2.7.1 人名識別 52
2.7.2 人名識別規則 53
2.8 文本歸一化 61
2.9 依存樹模型 62
2.10 情感分析 63
2.11 本章小結 66
第3章 搜索引擎聽懂語音 67
3.1 語音識別總體結構 67
3.2 Kaldi快速入門 68
3.2.1 安裝Kaldi 69
3.2.2 yesno例子 69
3.2.3 數據準備 70
3.2.4 詞典準備 71
3.2.5 構建一個簡單的ASR 74
3.3 使用FFmpeg提取音頻 82
3.4 時間序列 82
3.5 動態時間規整 84
3.6 傅裏葉變換 86
3.6.1 離散傅裏葉變換 86
3.6.2 快速傅裏葉變換 89
3.7 MFCC特徵 92
3.8 在線解碼 93
3.8.1 使用現成的模型 93
3.8.2 使用Alex-ASR 94
3.9 加權有限狀態轉換 95
3.9.1 FSA 96
3.9.2 FST 97
3.9.3 WFST 98
3.10 語音識別語料庫 99
3.10.1 TIMIT語音庫 99
3.10.2 中文語音庫 99
3.11 本章小結 100
第4章 Elasticsearch分佈式搜索引擎 101
4.1 搭建Elasticsearch集群 101
4.2 索引數據 103
4.3 實現搜索接口 107
4.4 搜索界面開發 108
4.4.1 使用Spring Boot開發搜索界面 109
4.4.2 使用.NET開發搜索界面 132
4.5 檢索模型 142
4.5.1 使用BM25檢索模型 146
4.5.2 參數調優 146
4.6 搜索中文優化 147
4.7 Elasticsearch源代碼分析 152
4.7.1 導入源代碼到Eclipse 152
4.7.2 Guice框架 152
4.7.3 Netty異步IO框架 154
4.7.4 分佈式設計與實現 155
4.7.5 使用Lucene 156
4.8 本章小結 159
第5章 分佈式計算平臺 160
5.1 Atomix框架 160
5.1.1 Raft協議 160
5.1.2 使用Atomix 162
5.2 gRPC框架 164
5.3 本章小結 167
第6章 智能搜索案例分析 168
6.1 醫藥垂直搜索引擎 168
6.1.1 網絡爬蟲 169
6.1.2 抓取PubMed 177
6.1.3 MVC搜索界面開發 179
6.1.4 構建知識庫 183
6.1.5 自動問答 185
6.2 電商搜索 188
6.2.1 電商爬蟲 188
6.2.2 商品搜索 192
6.2.3 在線客服 195
6.3 本章小結 198
參考文獻 199



