Python 自然語言處理入門與實戰
戴程,張良均
- 出版商: 人民郵電
- 出版日期: 2022-10-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 214
- ISBN: 7115592780
- ISBN-13: 9787115592781
-
相關分類:
Natural Language Processing
立即出貨
買這商品的人也買了...
-
設計聊天機器人|建立對話式體驗 (Designing Bots: Creating Conversational Experiences)$580$458 -
$352Python 自然語言處理實戰:核心技術與算法 -
特徵工程不再難:資料科學新手也能輕鬆搞定! (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)$520$406 -
NLP 工程師養成術:自然語言處理入門$690$538 -
$709遷移學習 -- TRANSFER LEARNING (楊強教授新作) -
$403會話式AI:自然語言處理與人機交互 -
Python 文本分析, 2/e (Text Analytics with Python: A Practitioner's Guide to Natural Language Processing, 2/e)$774$735 -
$505深入淺出 Embedding:原理解析與應用實踐 -
Python 網路爬蟲:大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e$750$593 -
$454自然語言處理 NLP 從入門到項目實戰:Python 語言實現 -
$305Python 中文自然語言處理基礎與實戰 -
$378PyTorch 自然語言處理入門與實戰 -
$458基於機器學習的工作流活動推薦 -
深度學習高手筆記 捲1:基礎算法$659$626 -
實戰 Python Flask 開發|基礎知識 x 物件偵測 x 機器學習應用$620$490 -
DataOps 實踐手冊 : 敏捷精益的數據運營$594$564 -
$352Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI -
$403貝葉斯算法與機器學習 -
$378網絡 DevOps 平臺規劃、設計與實踐 — 基於企業架構(EA)和領域建模(DDD)的方法 -
深度強化學習$779$740 -
$456軟件開發的 201個原則 (必讀經典簡裝本) -
$388代碼的藝術:用工程思維驅動軟件開發(必讀經典簡裝本) -
$407Python 程序員面試筆試通關攻略 -
$559因果推斷與機器學習 -
ChatGPT 完整解析:API 實測與企業應用實戰$620$490
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書以自然語言處理常用技術與真實案例相結合的方式,深入淺出地介紹自然語言處理中的關鍵內容。全書共8章,內容包括自然語言處理概述、文本數據爬取、文本基礎處理、文本進階處理、天問一號事件中的B站網民情感分析、新聞文本分類、基於瀏覽記錄的個性化新聞推薦以及基於TipDM數據挖掘建模平臺實現新聞文本分類。本書大部分章節包含了課後習題,其中前4章設置了選擇題,後4章設置了操作題,希望通過練習和操作實踐,幫助讀者鞏固所學的內容。
本書可作為高校數據科學、人工智能和新聞傳播相關專業教材,也可作為自然語言處理愛好者的自學用書。
作者簡介
張良均,高級信息系統項目管理師,泰迪杯全國大學生數據挖掘競賽(www.tipdm.org)的發起人。華南師範大學、廣東工業大學兼職教授,廣東省工業與應用數學學會理事。兼有大型高科技企業和高校的工作經歷,主要從事大數據挖掘及其應用的策劃、研發及咨詢培訓。全國電腦技術與軟件專業技術資格(水平)考試繼續教育和CDA數據分析師培訓講師。發表數據挖掘相關論文數二十餘篇,已取得國家發明專利12項,主編圖書《神經網絡實用教程》、《數據挖掘:實用案例分析》、《MATLAB數據分析與挖掘實戰》等9本圖書,主持並完成科技項目9項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有電力、電信、銀行、製造企業、電子商務和電子政務的項目經驗和行業背景。
目錄大綱
目錄
第 1章 導論 1
1.1 自然語言處理概述 1
1.1.1 發展歷程 1
1.1.2 研究任務 3
1.1.3 自然語言處理與新聞傳媒 5
1.2 自然語言處理工具 11
1.2.1 常見的自然語言處理工具 12
1.2.2 Python與自然語言處理 14
1.3 NLP的開發環境 14
1.3.1 Anaconda安裝 14
1.3.2 Anaconda應用介紹 15
小結 22
課後習題 22
第 2章 文本數據爬取 24
2.1 HTTP通信基礎 24
2.1.1 熟悉HTTP請求方法與過程 24
2.1.2 熟悉常見HTTP狀態碼 27
2.1.3 熟悉HTTP頭部信息 28
2.1.4 熟悉Cookie 29
2.2 靜態網頁爬取 31
2.2.1 實現HTTP請求 32
2.2.2 網頁解析 35
2.2.3 數據存儲 42
2.3 動態網頁爬取 44
2.3.1 逆向分析爬取 45
2.3.2 使用Selenium庫爬取 50
小結 58
課後習題 59
第3章 文本基礎處理 61
3.1 語料庫 61
3.1.1 語料庫概述 61
3.1.2 語料庫種類與原則 63
3.1.3 NLTK庫 65
3.1.4 語料庫的獲取 68
3.1.5 語料庫的構建與應用 70
3.2 分詞與詞性標註 74
3.2.1 中文分詞簡介 74
3.2.2 基於規則的分詞 74
3.2.3 基於統計的分詞 76
3.2.4 中文分詞工具jieba庫 79
3.2.5 詞性標註簡介 80
3.2.6 詞性標註規範 81
3.2.7 jieba詞性標註 82
3.3 命名實體識別 85
3.3.1 命名實體識別簡介 86
3.3.2 CRF模型 87
3.3.3 命名實體識別流程 87
3.4 關鍵詞提取 91
3.4.1 關鍵詞提取技術簡介 91
3.4.2 關鍵詞提取算法 92
3.4.3 自動提取文本關鍵詞 93
小結 97
課後習題 97
第4章 文本進階處理 99
4.1 文本向量化 99
4.1.1 文本向量化簡介 99
4.1.2 文本離散表示 100
4.1.3 分佈式表示 102
4.1.4 Word2Vec詞向量的訓練 106
4.2 文本相似度計算 108
4.2.1 文本相似度的定義 108
4.2.2 文本的表示 108
4.2.3 常用文本相似度算法 111
4.3 文本分類與聚類 117
4.3.1 文本挖掘簡介 117
4.3.2 文本分類常用算法 118
4.3.3 文本聚類常用算法 120
4.3.4 文本分類與聚類的步驟 121
4.3.5 新聞文本分類 122
4.3.6 新聞文本聚類 130
小結 135
課後習題 136
第5章 天問一號事件中的網民評論情感分析 137
5.1 業務背景與項目目標 137
5.1.1 業務背景 138
5.1.2 數據說明 138
5.1.3 分析目標 139
5.2 分析方法與過程 140
5.2.1 數據探索 140
5.2.2 文本預處理 145
5.2.3 繪制詞雲圖 149
5.2.4 使用樸素貝葉斯構建情感分析模型 154
5.2.5 模型評估 160
5.2.6 模型優化 162
小結 167
課後習題 167
第6章 新聞文本分類 172
6.1 業務背景與項目目標 172
6.1.1 業務背景 172
6.1.2 數據說明 173
6.1.3 分析目標 173
6.2 分析方法與過程 174
6.2.1 數據採集 174
6.2.2 數據探索 175
6.2.3 文本預處理 181
6.2.4 SVM模型構建 185
6.2.5 模型評價 189
小結 191
課後習題 191
第7章 基於瀏覽記錄的個性化新聞推薦 193
7.1 業務背景與項目目標 193
7.1.1 業務背景 194
7.1.2 數據說明 194
7.1.3 分析目標 195
7.2 分析方法與過程 196
7.2.1 數據探索 196
7.2.2 數據預處理 201
7.2.3 模型構建 202
7.2.4 模型評估 209
小結 210
課後習題 211
第8章 基於TipDM數據挖掘建模平臺實現新聞文本分類 212
8.1 平臺簡介 212
8.1.1 實訓庫 213
8.1.2 數據連接 214
8.1.3 實訓數據 215
8.1.4 系統算法 217
8.1.5 個人算法 219
8.2 實現新聞文本分類 220
8.2.1 數據源配置 221
8.2.2 文本預處理 223
8.2.3 支持向量機模型 231
小結 233
課後習題 233


