Python與文本智能處理入門
吳鋒文
- 出版商: 科學出版
- 出版日期: 2025-10-01
- 售價: $768
- 語言: 簡體中文
- ISBN: 7030830237
- ISBN-13: 9787030830234
-
相關分類:
Text-mining
下單後立即進貨 (約4週~6週)
相關主題
商品描述
文本智能處理作為中文信息處理的關鍵領域,展現出廣闊前景;Python以其強大的生態和易用性,已成為主流編程工具。然而,初學者如何系統掌握Python並將其有效應用於文本處理仍面臨著挑戰,本書旨在為初學者提供一條清晰實用的學習路徑。本書面向初學者,系統梳理了用Python進行中文文本智能處理的完整路徑。前4章夯實語言基礎——數據結構、流程控制、正則表達式與規範編程範式;第5章及以後深入應用——語料庫構建、網絡爬蟲、數據可視化,覆蓋分詞、向量化、相似度、分類聚類、情感分析及深度學習,配套案例代碼,理實結合,快速上手。 本書面向高等院校新文科背景下的本科生、研究生教育,是系統學習Python編程及文本智能處理的入門讀本;也可作為數字人文及自然語言處理相關人員的參考書籍。
作者簡介
吳鋒文,男,1981年8月生,湖北黃岡人。現執教於四川外國語大學,語言學博士、教授、碩士研究生導師,嘉陵青年學者。第三批“重慶市學術技術帶頭人”後備人選,首屆“重慶英才青年拔尖人才”。 主要研究興趣為漢語語法、中文信息處理、漢語詞匯語義學。主持完成國家社科基金青年項目、教育部人文社科基金青年項目各1項,省級課題2項:參與國家社科基金項目和教育部人文社會科學重點研究基地重大項目3項。在《語言文字應用》《中文信息學報》《漢語學報》《語文建設》等刊物發表學術論文40余篇,獲科研獎勵5項。
目錄大綱
第1章 緒論
1.1 NLP概述
1.2 NLP基本流程
1.3 NLP的編程環境搭建
第2章 Python編程的數據結構
2.1 數字
2.2 字符串
2.3 列表
2.4 元組
2.5 集合
2.6 字典
2.7 數據類型轉換
第3章 程序語句結構
3.1 順序結構
3.2 分支結構
3.3 循環結構
3.4 其他語句結構
3.5 綜合應用案例
第4章 正則表達式
4.1 初識正則表達式
4.2 正則表達式函數
4.3 正則表達式的元字符
4.4 正則表達式的應用
第5章 文本詞匯層面的處理(上)
5.1 中文分詞簡介
5.2 中文分詞的主要方法
5.3 中文分詞工具jieba
5.4 文本詞性標註
5.5 本章小結
第6章 文本詞匯層面的處理(下)
6.1 文本關鍵詞提取
6.2 命名實體識別
6.3 任務:中文命名實體識別
6.4 文本語義角色標記
第7章 圖形繪制與詞雲圖的生成
7.1 Matplotlib與圖形繪制
7.2 詞雲圖的生成
7.3 利用詞頻數據生成詞雲圖
7.4 本章小結
第8章 文本向量化和文本語義相似度
8.1 文本向量化的概念
8.2 文本離散表示
8.3 文本分布式表示
8.4 文本語義相似度計算
第9章 文本分類與文本聚類
9.1 文本挖掘
9.2 文本分類常用算法
9.3 文本聚類常用算法
9.4 文本分類與文本聚類的步驟
9.5 任務:垃圾短信分類
9.6 任務:新聞文本聚類
9.7 本章小結
第10章 文本情感分析
10.1 文本情感分析簡介
10.2 情感分析的常用方法
10.3 常用的情感分類模型
10.4 任務:基於情感詞典的情感分析
第11章 爬蟲技術
11.1 網絡爬蟲簡介
11.2 運用正則表達式爬取網頁數據
11.3 運用XPath爬取網絡小說
11.4 運用bs4爬取網頁數據
11.5 動態網頁數據獲取
第12章 NLP中的深度學習技術
12.1 前饋神經網絡
12.2 循環神經網絡
12.3 LSTM網絡
12.4 深度學習工具
12.5 基於LSTM網絡的文本分類與文本情感分析
第13章 語料庫的構建與應用
13.1 語料庫的概念
13.2 語料庫的種類與構建原則
13.3 NLTK及其常用功能
13.4 語料庫資源的獲取
13.5 任務:語料庫的構建與使用
附錄 NLTK詞性標註對照表
後記
