社交網站的數據挖掘與分析(原書第3版) Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More, 3/e (

Matthew A.Russell,Mikhail Klassen 蘇統華,郭勇,潘巍譯

已絕版

相關主題

商品描述

《社交網站的數據挖掘與分析(原書第3版)》
指導你挖掘隱藏在Twitter、Facebook、Linkedln、Instagram和GitHub等流行社交網站上的豐富數據。
通過這本暢銷指南,數據科學家、分析師和程序員將學習如何在Jupyter Notebook
或者Docker容器中使用Python代碼分析社交媒體中的真知灼見——哪些人正在通過社交媒體進行聯繫?
他們正在談論什麼?他們目前身在何處?
  
在《社交網站的數據挖掘與分析(原書第3版)》的第一部分,每一章都聚焦社交網站生態的某個具體方面,
囊括了各大主流社交網站,也包括了網頁、博客和訂閱源、郵箱、GitHub以及新增加的Instagram的內容。
第二部分提供了實用指南,其中包括超過20個供挖掘Twitter數據之用的簡短代碼解決方案。

作者簡介

Matthew A.Russell

是Built科技公司的首席技術官。
他帶領團隊為實現“改進世界運轉方式”這一願景而工作。
在工作之餘,他追尋zhong極真理,崇尚自由,並嘗試研發超能機器人。
  
  
Mikhail Klassen

是Paladin Al公司的聯合創始人和首席數據科學家,該公司坐落於蒙特利爾,是面向航空領域提供數據分析服務的初創公司。
他的工作是藉助數據挖掘和機器學習技術為飛行員設計下一代基於數據驅動的自適應培訓方案。

目錄大綱

目錄
前言
第一部分社交網站導引
序幕
第1章挖掘Twitter:探索熱門話題、發現人們的談論內容等
1.1概述
1.2 Twitter風靡一時的原因
1.3探索Twitter API
1.3.1基本的Twitter術語
1.3.2創建一個Twitter API連接
1.3.3探索熱門話題
1.3.4搜索推文
1.4分析140字(或更多)的推文
1.4.1提取推文實體
1.4.2使用頻率分析技術分析推文和推文實體
1.4.3計算推文的詞彙豐富性
1.4.4檢視轉推模式
1.4.5使用直方圖將頻率數據可視化
1 .5本章小結
1.6推薦練習
1.7在線資源
第2章挖掘Facebook:分析粉絲頁面、查看好友關係等
2.1概述
2.2探索Facebook的圖譜API
2.2.1理解圖譜API
2. 2.2理解開放圖協議
2.3分析社交圖譜聯繫
2.3.1分析Facebook頁面
2.3.2使用pandas操作數據
2.4本章小結
2.5推薦練習
2.6在線資源
第3章挖掘Instagram:計算機視覺、神經網絡、對象識別和人臉檢測
3.1概述
3.2探索Instagram API
3.2.1建立Instagram API請求
3.2.2獲取你自己的Instagram訂閱源
3 .2.3通過主題標籤檢索媒體
3.3 Instagram帖子的剖析
3.4人工神經網絡速成
3.4.1訓練神經網絡“看”圖片
3.4.2手寫數字識別
3.4.3使用預訓練的神經網絡在照片中識別物體
3.5神經網絡在Instagram帖子中的應用
3.5.1標記圖像內容
3.5.2在圖像中檢測人臉
3.6本章小結
3.7推薦練習
3 .8在線資源
第4章挖掘LinkedIn:分組職位、聚類同行等
4.1概述
4.2探索LinkedIn API
4.2.1發起LinkedIn API請求
4.2.2下載LinkedIn的聯繫人並保存為CSV文件
4.3數據聚類速成
4.3.1對數據進行規範化處理以便進行分析
4.3.2測量相似度
4.3.3聚類算法
4.4本章小結
4.5推薦練習
4.6在線資源
第5章挖掘文本文件:計算文檔相似度、提取搭配等
5.1概述
5.2文本文件
5.3 TF-IDF簡介
5.3.1詞頻
5.3.2逆文檔頻率
5.3.3 TF-IDF
5.4用TF-IDF查詢人類語言數據
5.4.1自然語言工具包概述
5.4.2對人類語言使用TF-IDF
5.4.3查找相似文檔
5.4.4分析人類語言中的二元文法
5.4.5分析人類語言數據的反思
5.5本章小結
5.6推薦練習
5.7在線資源
第6章挖掘網頁:使用自然語言處理理解人類語言、總結博客內容等
6.1概述
6.2抓取、解析和爬取網頁
6.3通過解碼語法來探索語義
6.3.1一步步講解自然語言處理
6.3.2人類語言數據中的句子檢測
6. 3.3文檔摘要
6.4以實體為中心的分析:範式轉換
6.5人類語言數據處理分析的質量
6.6本章小結
6.7推薦練習
6.8在線資源
第7章挖掘郵箱:分析誰和誰說什麼以及說的頻率等
7.1概述
7.2獲取和處理郵件語料庫
7.2.1 Unix郵箱指南
7.2.2獲得Enron數據
7.2.3將郵件語料轉換為Unix郵箱
7.2.4將Unix郵箱轉換為pandas DataFrame
7.3分析Enron語料庫
7.3.1根據日期-時間範圍查詢
7 .3.2發件人-收件人通信的分析模式
7.3.3根據關鍵詞查找郵件
7.4分析你自己的郵件數據
7.4.1通過OAuth訪問你的Gmail
7.4.2獲取和解析郵件
7.4.3 Immersion對電子郵件的可視化模式
7.5本章小結
7.6推薦練習
7.7在線資源
第8章挖掘GitHub:檢查軟件協同習慣、構建興趣圖譜等
8.1概述
8.2探索GitHub的API
8.2.1建立GitHub API連接
8.2.2建立GitHub API請求
8.3使用屬性圖為數據建模
8.4分析GitHub興趣圖譜
8.4.1初始化一個興趣圖譜
8.4.2計算圖的中心度度量
8.4.3為用戶添加“關注”邊來擴展興趣圖譜
8.4.4以節點為中心獲得更高效的查詢
8.4.5興趣圖譜的可視化
8.5本章小結
8.6推薦練習
8.7在線資源

第二部分Twitter數據挖掘與分析實用指南
第9章Twitter數據挖掘與分析
9.1訪問Twitter的API(開發目的)
9.2使用OAuth訪問Twitter的API(產品目的)
9.3探索流行話題
9. 4查找推文
9.5構造方便的函數調用
9.6使用文本文件存儲JSON數據
9.7使用MongoDB存儲和訪問JSON數據
9.8使用信息流API對Twitter數據管道抽樣
9.9採集時序數據
9 .10提取推文實體
9.11在特定的推文範圍內查找最流行的推文
9.12在特定的推文範圍內查找最流行的推文實體
9.13對頻率分析製表
9.14查找轉推了狀態的用戶
9.15提取轉推的屬性
9.16創建健壯的Twitter請求
9.17獲取用戶檔案信息
9.18從任意的文本中提取推文實體
9.19獲得用戶的所有好友和關注者
9.20分析用戶的好友和關注者
9.21獲取用戶的推文
9.22爬取好友關係圖
9.23分析推文內容
9.24提取鏈接目標摘要
9.25分析用戶收藏的推文
9.26本章小結
9.27推薦練習
9.28在線資源

第三部分附錄
附錄A關於本書虛擬機體驗的信息
附錄B OAuth入門
附錄C Python和Jupyter Notebook的使用技巧