社交媒體數據挖掘與分析

Gabor Szabo

立即出貨

買這商品的人也買了...

商品描述

《社交媒體數據挖掘與分析》由工作在大規模社交媒體數據處理一線的研發人員撰寫,
旨在以更為友好、基礎、實用的方式幫助你理解在線社交媒體。

《社交媒體數據挖掘與分析》圍繞著如何探索和理解社交媒體系統的基本組成部分進行組織,
從用戶角度深入剖析收集和應用社交媒體數據的機制,
並通過建立在真實數據集上的代碼及分析案例詳細闡述相關數據挖掘方法、技術和工具。

《社交媒體數據挖掘與分析》共7章,
第1章介紹典型用戶在社交媒體服務上的行為及其在不同服務中的普遍相似性;
第2章主要討論創造了社交網絡的用戶之間的連接;
第3章主要探討時間在社交系統中所扮演的角色,並且介紹幫助你理解其作用的工具;
第4章回顧自然語言處理技術;
第5章介紹分析大型數據集的挑戰;
第6章展示如何用機器學習技術預測人們喜歡哪類電影,並對預測結果進行評估;
第7章由淺入深地分析全書中用於分析不同問題的通用統計模式,
以及如何使用類似的分析技術去理解它們。

作者簡介

Gabor Szabo

致力於社交網絡、自組織在線生態系統、交通運輸系統和自動駕駛領域的大規模數據分析和建模問題。
此前任職於哈佛醫學院、聖母大學和惠普實驗室,期間的研究重點是描述在線社區和生物系統中的隨機組織網絡。
在此之後,他建立了分佈式算法來理解和預測Twitter中的用戶行為。
他創建了Lyft拼車網絡的資源分配模型,最近領導著特斯拉自動輔助駕駛( Tesla's Autopilot)項目的一個團隊。
  

Gungor Polatkan

機器學習專家和工程領導者,參與構建了Linkedln和Twitter的服務於個性化內容的大規模分佈式數據管道。
最近,他領導著Linkedln的AI後端的設計與實現,
並將其推薦引擎從無到有地提升為能夠從5億多用戶中學習數十億個係數的超個性化模型。
他在Linkedln部署了早一批深度排名模型,用於Linkedln的垂直搜索,改進了其人才搜索功能。
他樂於領導團隊、指導工程師,並在產品的快速迭代過程中培育技術嚴謹和工匠精神的文化。
在加入Linkedln之前,他曾在Twitter、普林斯頓大學、谷歌、MERL和加州大學伯克利分校的幾個著名的應用研究小組工作。
他在ML&AI期刊和會議發表並評審過論文,如UAI、ICML和PAMI。
  

P.Oscar Boykin

在Stripe致力於機器學習基礎設施的建設,建立了預測大規模欺詐行為的系統。
在加入Stripe之前,Oscar在Twitter工作了4年多的時間,
先是致力於廣告的建模和預測,而後投身於數據基礎設施系統的建設。
在Twitter,Oscar與他人合作開發了許多開源scala庫,包括Scalding、Algebird、
Summingbird和Chill。
在加入Twitter之前,Oscar是佛羅里達大學電子與計算機工程系的助理教授。
Oscar在加州大學洛杉磯分校獲得物理學博士學位,
作為合著者在學術期刊和會議上發表了數十篇論文。
  

Antonios Chalkiopoulos

一位快速和大型數據分佈式系統專家,具有在媒體、物聯網、零售和金融行業交付生產級數據管道的經驗。
Antonios是大數據領域的專著作者、開源社區的貢獻者、Landoop LTD的聯合創始人和CEO。
Landoop LTD為動態數據創建了創新性的、曾獲獎勵的Lenses平台。
該平台保證了流數據的可見、可控,它通過直觀的Web接口支持數據發現,
並為數據的移動、監控、預警、管理、多重租賃、安全提供了全面的SQL支持,
為構建和管理實時數據管道和微服務提供了完整的用戶體驗。

目錄大綱

譯者序
前言
致謝
作者簡介
技術編輯簡介

第1章用戶:誰參與社交媒體
1.1測量Wikipedia中用戶行為的變化
1.1.1用戶活動的多樣性
1.1.2人類活動中的長尾效應
1.2隨處可見的長尾效應:80/20定律
1.3 Twitter上的在線行為
1.3.1檢索用戶的Tweet
1.3.2對數分區
1.3.3 Twitter上的用戶活動
1.4總結

第2章網絡:社交媒體如何運行
2.1社交網絡的類型和屬性
2.1.1用戶何時創建連接:顯式網絡
2.1.2有向圖與無向圖
2. 1.3節點和邊的屬性
2.1.4加權圖
2.1.5由活動構建圖:隱式網絡
2.2網絡可視化
2.3度:贏家通吃
2.3.1連接計數
2. 3.2用戶連接的長尾分佈
2.3.3超越理想網絡模型
2.4捕獲相關:三角結構、簇和同配性
2.4.1局部三角結構和簇
2.4.2同配性
2.5總結

第3章時序過程:用戶何時使用社交媒體
3.1傳統模型如何描述事件發生的時間
3.2事件間隔時間
3.2.1與無記憶過程的對比
3.2.2自相關
3.2.3與無記憶過程的偏離
3.2.4用戶活動中的時間週期
3.3個體行為的爆發
3.4預測長期指標
3.4.1發現趨勢
3.4.2發現季節性
3.4.3利用ARIMA預測時間序列
3.5總結

第4章內容:社交媒體中有什麼
4. 1定義內容:聚焦於文本和非結構數據
4.1.1從文本生成特徵:自然語言處理基礎
4.1.2文本中詞條的基本統計
4.2使用內容特徵識別主題
4.2.1話題的流行度
4.2.2用戶個體興趣有多麼多樣化
4.3從高維文本中抽取低維信息
4.4總結
……

第5章處理大型數據集
第6章學習、映射和推薦
第7章結論