文本數據管理與分析:信息檢索與文本挖掘的實用導論
[美] 翟成祥(Chengxiang Zhai) 肖恩·馬森(Sean Massung) 伊利諾伊大學香檳分校 著
- 出版商: 機械工業
- 出版日期: 2019-04-01
- 售價: $834
- 貴賓價: 9.5 折 $792
- 語言: 簡體中文
- 頁數: 309
- ISBN: 7111611764
- ISBN-13: 9787111611769
-
相關分類:
Text-mining
- 此書翻譯自: Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining
立即出貨 (庫存=1)
買這商品的人也買了...
-
無瑕的程式碼-敏捷軟體開發技巧守則 + 番外篇-專業程式設計師的生存之道 (雙書合購)$940$700 -
$454設計模式之禪, 2/e -
Text Mining 文本探勘$350$350 -
遊戲數據分析的藝術$474$450 -
$458Unity Shader 入門精要 -
Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining$3,270$3,107 -
$594硬件安全攻防大揭秘 -
無瑕的程式碼-敏捷完整篇-物件導向原則、設計模式與 C# 實踐 (Agile principles, patterns, and practices in C#)$790$616 -
AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications)$474$450 -
為你自己學 Git$500$425 -
$414UNIX Linux OS X中的Shell編程 第4版 -
無瑕的程式碼-整潔的軟體設計與架構篇 (Clean Architecture: A Craftsman's Guide to Software Structure and Design)$580$452 -
$352FFmpeg 從入門到精通 -
$449Oracle 從新手到高手 -
$469區塊鏈與金融大數據整合實戰 -
$505微服務設計模式和最佳實踐 (Microservice Patterns and Best Practices) -
$857Oracle Database 12cR2 性能調整與優化, 5/e -
$417Django 項目實例精解, 2/e -
I'm From Taiwan / Programmer 阿喵宅造型貼紙7X7公分 (粉色)$69$60 -
阿喵宅開發順利春聯 2入$68$68 -
最新 AI 技術:知識圖譜集技術概念大成$980$774 -
白話演算法!培養程式設計的邏輯思考 (Grokking Algorithms: An illustrated guide for programmers and other curious people)$520$468 -
比 Docker 再高階一步:使用 Harbor 完成 Helm Chart 容器及鏡像雲端原生管理$880$695 -
信息檢索導論 (修訂版)$594$564 -
資料科學的建模基礎 : 別急著 coding!你知道模型的陷阱嗎?$599$509
相關主題
商品描述
本書是文本信息處理領域著名學者美國伊利諾伊大學香檳分校(University of Illinois at Urbana–Champaign,UIUC)翟成祥教授傾力之作,主要基於作者在UIUC講授數據管理與分析相關課程(如CS410文本信息系統,Text Information Systems)使用的材料。書中的大部分內容及結構與翟成祥教授在Coursera開設的兩門在線課程“文本檢索與搜索引擎”(Text Retrieval and Search Engines)和“文本挖掘與分析”(Text Mining and Analytics)一致,因此可作為兩門在線課程的主要參考書。
全書內容以文本數據處理為核心,從理論到實踐介紹了文本數據管理與分析的關鍵問題,廣泛涵蓋了信息檢索和文本挖掘相關技術。
本書具體內容:
·文本信息獲取與挖掘基礎:統計與概率論、信息論等相關理論和文本數據理解技術。
·文本信息獲取關鍵技術:信息檢索的模型、實現和評價,網絡搜索以及推薦系統等。
·文本挖掘關鍵技術:文檔分類,文檔聚類,文本摘要,主題分析,觀點挖掘與情感分析,文本與結構化數據聯合分析等。
·文本管理和分析系統:整合信息檢索與文本分析技術,結合配套軟件工具META,構建統一的、人機結合的文本管理和分析系統。
本書特點:
·內容深入淺出,理論實踐密切結合,可作為高等院校電腦科學或相關專業本科生、研究生信息檢索與文本挖掘課程的教材。
·主題豐富,體系完整,邏輯清晰,便於與各種課程體系結合,可作為高等院校相關專業教師的參考書。
·兼顧廣度與深度,覆蓋經典模型與方法並提供豐富的擴展閱讀文獻,可作為專業科研人員與工業界人士的參考書或技術手冊。
作者簡介
李洋,博士,東北林業大學講師。研究領域為自然語言處理與推薦系統。主持國家自然科學基金青年項目、黑龍江省科學基金面上項目等,在人工智能、自然語言處理等領域國際期刊和會議(如TIST、COLING等)上發表多篇論文。
目錄大綱
中文版序
譯者序
前言
作者簡介
第一部分 概述和背景
第1章 緒論
1.1 文本信息系統的功能
1.2 文本信息系統的概念框架
1.3 本書結構安排
1.4 如何使用本書
書目說明和延伸閱讀
第2章 背景
2.1 概率和統計基礎
2.1.1 聯合概率和條件概率
2.1.2 貝葉斯法則
2.1.3 拋硬幣和二項分布
2.1.4 最大似然參數估計
2.1.5 貝葉斯參數估計
2.1.6 概率模型及其應用
2.2 信息論
2.3 機器學習
書目說明和延伸閱讀
練習
第3章 文本數據理解
3.1 自然語言處理的歷史和研究現狀
3.2 自然語言處理和文本信息系統
3.3 文本表示
3.4 統計語言模型
書目說明和延伸閱讀
練習
第4章 META:一個面向文本數據管理和分析的統一工具箱
4.1 設計原則
4.2 設置META
4.3 架構
4.4 用META分詞
4.5 相關工具箱
練習
第二部分 文本數據獲取
第5章 文本數據獲取概述
5.1 獲取模式:拉取與推送
5.2 多模式互動獲取
5.3 文本檢索
5.4 文本檢索與數據庫檢索
5.5 文檔選擇與文檔排序
書目說明和延伸閱讀
練習
第6章 檢索模型
6.1 概述
6.2 檢索函數的一般形式
6.3 向量空間檢索模型
6.3.1 向量空間模型實例化
6.3.2 位向量表示的表現
6.3.3 改進的模型實例
6.3.4 TF變換
6.3.5 文檔長度規範化
6.3.6 基本向量空間模型的進一步改進
6.3.7 小結
6.4 概率檢索模型
6.4.1 查詢似然檢索模型
6.4.2 文檔語言模型的平滑
6.4.3 具體的平滑方法
書目說明和延伸閱讀
練習
第7章 反饋
7.1 向量空間模型中的反饋
7.2 語言模型中的反饋
書目說明和延伸閱讀
練習
第8章 搜索引擎實現
8.1 分詞器
8.2 索引器
8.3 打分器
8.3.1 逐個詞項排序
8.3.2 逐個文檔排序
8.3.3 過濾文檔
8.3.4 索引分片
8.4 反饋實現
8.5 壓縮
8.5.1 按位壓縮
8.5.2 塊壓縮
8.6 高速緩存
8.6.1 LRU緩存
8.6.2 DBLRU緩存
書目說明和延伸閱讀
練習
第9章 搜索引擎評價
9.1 引言
9.1.1 要度量什麼
9.1.2 Cranfield評價方法
9.2 集合檢索的評價
9.2.1 準確率和召回率
9.2.2 F度量:準確率和召回率的結合
9.3 有序列表的評價
9.4 基於多級別判斷標準的評價
9.5 評價中的實際問題
書目說明和延伸閱讀
練習
第10章 網絡搜索
10.1 網絡爬蟲
10.2 網頁索引
10.3 鏈接分析
10.3.1 PageRank算法
10.3.2 HITS算法
10.4 排序學習
10.5 網絡搜索的未來
書目說明和延伸閱讀
練習
第11章 推薦系統
11.1 基於內容的推薦
11.2 協同過濾
11.3 推薦系統的評價
書目說明和延伸閱讀
練習
第三部分 文本數據分析
第12章 文本數據分析概述
12.1 動機:文本數據分析的應用
12.2 文本與非文本數據:人類作為主觀傳感器
12.3 文本挖掘任務概覽
第13章 詞關聯挖掘
13.1 詞關聯挖掘的基本思想
13.2 聚合關系的發現
13.3 組合關系的發現
13.4 詞關聯挖掘的評價
書目說明和延伸閱讀
練習
第14章 文本聚類
14.1 聚類技術概述
14.2 文檔聚類
14.2.1 凝聚層次聚類法
14.2.2 K-均值
14.3 詞項聚類
14.3.1 語義關聯的詞語
14.3.2 點互信息
14.3.3 先進方法
14.4 文本聚類的評價
書目說明和延伸閱讀
練習
第15章 文本分類
15.1 引言
15.2 文本分類方法概述
15.3 文本分類問題
15.4 文本分類的特征
15.5 分類算法
15.5.1 k-近鄰
15.5.2 樸素貝葉斯
15.5.3 線性分類器
15.6 文本分類的評價
書目說明和延伸閱讀
練習
第16章 文本摘要
16.1 文本摘要技術概述
16.2 抽取式文本摘要
16.3 抽象式文本摘要
16.4 文本摘要的評價
16.5 文本摘要的應用
書目說明和延伸閱讀
練習
第17章 主題分析
17.1 用詞項表示的主題
17.2 用單詞分布表示的主題
17.3 挖掘文本中的一個主題
17.3.1 最簡單的主題模型:一元語言模型
17.3.2 添加背景語言模型
17.3.3 混合模型的參數估計
17.3.4 混合模型的行為
17.3.5 期望最大化
17.4 概率潛在語義分析
17.5 PLSA的擴展及潛在狄利
