文本挖掘:基於R語言的整潔工具 文本挖掘:基于R语言的整洁工具

茱莉亞·斯拉格 (Julia Silge), 戴維·羅賓遜 (David Robinson)

  • 出版商: 機械工業出版社
  • 出版日期: 2018-04-11
  • 定價: $354
  • 售價: $354
  • 貴賓價: 9.5$336
  • 語言: 簡體中文
  • 頁數: 161
  • 裝訂: 平裝
  • ISBN: 711158855X
  • ISBN-13: 9787111588559
  • 相關分類: R 語言

立即出貨

買這商品的人也買了...

相關活動主題

20180704 %e7%b0%a1%e9%ab%94%e6%9b%b8%e6%9c%80%e6%96%b0%e5%88%b0%e8%b2%a8 small

商品描述

全書共9章,主要介紹如何使用基於R的整潔工具來進行文本分析。首先介紹了整潔文本的格式,以及如何獲取整潔文本數據集;並通過tidytext中的情感數據集來進行情緒分析;接著介紹瞭如何根據tf-idf統計量來識別特定文檔中的重要單詞,以及如何利用n-gram來分析文本中的文字網絡;之後介紹瞭如何將整潔文本轉換為文檔詞項矩陣和Corpus對象格式,並給出了主題建模的概念;最後通過整合多種已知的整潔文本挖掘方法,給出了一些研究案例,這些案例涉及Twitter歸檔文件、NASA數據集以及來自新聞組的即時通信信息。總的來說,本書側重於分析文學、新聞和社交媒體方面的文本,非常適合從事相關文本挖掘的工作人員和自然語言的初學者閱讀。與此同時,使用書中提供的大量針對性編程例子,不但可以提高工程實戰能力,而且可以在本書提到的整潔框架上建立自己的分析任務。