Text Mining with R: A Tidy Approach (Paperback)

Julia Silge, David Robinson

買這商品的人也買了...

商品描述

Much of the data available today is unstructured and text-heavy, making it challenging for analysts to apply their usual data wrangling and visualization tools. With this practical book, you’ll explore text-mining techniques with tidytext, a package that authors Julia Silge and David Robinson developed using the tidy principles behind R packages like ggraph and dplyr. You’ll learn how tidytext and other tidy tools in R can make text analysis easier and more effective.

The authors demonstrate how treating text as data frames enables you to manipulate, summarize, and visualize characteristics of text. You’ll also learn how to integrate natural language processing (NLP) into effective workflows. Practical code examples and data explorations will help you generate real insights from literature, news, and social media.

  • Learn how to apply the tidy text format to NLP
  • Use sentiment analysis to mine the emotional content of text
  • Identify a document’s most important terms with frequency measurements
  • Explore relationships and connections between words with the ggraph and widyr packages
  • Convert back and forth between R’s tidy and non-tidy text formats
  • Use topic modeling to classify document collections into natural groups
  • Examine case studies that compare Twitter archives, dig into NASA metadata, and analyze thousands of Usenet messages

商品描述(中文翻譯)

現今許多可用的資料都是非結構化且以文字為主,這使得分析師在應用他們通常使用的資料整理和視覺化工具時面臨挑戰。這本實用書籍將介紹使用 tidytext 進行文字探勘的技巧,tidytext 是由作者 Julia Silge 和 David Robinson 遵循 R 套件 tidy 原則所開發的套件,類似於 ggraph 和 dplyr。您將學習如何使用 R 中的 tidytext 和其他 tidy 工具來使文字分析更加容易和有效。

作者演示了將文字視為資料框的方式,使您能夠操作、總結和視覺化文字的特徵。您還將學習如何將自然語言處理(NLP)整合到有效的工作流程中。實際的程式碼示例和資料探索將幫助您從文學、新聞和社交媒體中獲得真正的洞察。

本書內容包括:
- 學習如何將 tidy text 格式應用於 NLP
- 使用情感分析來挖掘文字的情感內容
- 使用頻率測量識別文件中最重要的詞語
- 使用 ggraph 和 widyr 套件探索詞語之間的關係和連接
- 在 R 的 tidy 和非 tidy 文字格式之間進行轉換
- 使用主題建模將文件集合分類為自然群組
- 檢查比較 Twitter 存檔、挖掘 NASA 元數據和分析數千條 Usenet 訊息的案例研究

以上是本書的內容簡介。