深度學習視頻理解
張皓
- 出版商: 電子工業
- 出版日期: 2021-10-01
- 定價: $768
- 售價: 7.9 折 $607
- 語言: 簡體中文
- 頁數: 342
- 裝訂: 平裝
- ISBN: 7121419807
- ISBN-13: 9787121419805
-
相關分類:
DeepLearning
立即出貨
買這商品的人也買了...
-
高等微積分【解析概論】$550$523 -
機器學習的數學基礎 : AI、深度學習打底必讀$580$458 -
深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)$580$458 -
$301乙太坊 Solidity 智慧合約開發 -
$331機器學習(Python+sklearn+TensorFlow 2.0)-微課視頻版 -
行動裝置深度學習$380$296 -
$374Python 深度學習與項目實戰 -
核心開發者親授!PyTorch 深度學習攻略 (Deep Learning with Pytorch)$1,000$790 -
$517機器學習中的加速一階優化算法 -
Python 實戰聖經:用簡單強大的模組套件完成最強應用 (附影音/範例程式)$580$435 -
機器學習的統計基礎 : 深度學習背後的核心技術$680$537 -
$327昇騰AI處理器CANN應用與實戰——基於Atlas硬件的人工智能案例開發指南 -
$374精通 LevelDB -
一本書秒殺電腦視覺最新應用:80個 Python 大師級實例$880$695 -
$568ARM64 體系結構編程與實踐 -
開發者傳授 PyTorch 秘笈$1,200$948 -
圖解 TensorFlow 2 初學篇:實作 tf.keras + Colab 雲端、深度學習、人工智慧、影像辨識$820$640 -
$374動手學推薦系統 — 基於 PyTorch 的算法實現 (微課視頻版) -
科學方法賺大錢 - Python 進行商品期貨量化交易$720$569 -
HuggingFace 自然語言處理詳解 — 基於 BERT 中文模型的任務實戰$414$393 -
$403交易的密碼:用算法賺取第一桶金 -
最強 AI 投資分析:打造自己的股市顧問機器人,股票趨勢分析×年報解讀×選股推薦×風險管理$750$593 -
$473YOLO 目標檢測 -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748 -
$422大模型動力引擎 — PyTorch 性能與顯存優化手冊
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
視頻理解是計算機視覺和深度學習的一個重要分支。
本書對視頻理解的3個重要領域進行介紹,對於每個領域,
本書不僅解釋了相關算法的原理,還梳理了算法演進的脈絡。
全書共分6章,
第1章簡要介紹視頻行業的發展歷程;
第2章回顧經典圖像分類模型和RNN;
第3章和第4章介紹動作識別的重要算法;
第5章介紹時序動作定位的重要算法;
第6章介紹視頻Embedding的重要算法。
*後總結了常用的一些視頻處理工具。
作者簡介
張皓
畢業於南京大學計算機系周誌華教授領導的機器學習與數據挖掘研究所(LAMDA),
導師為吳建鑫教授,研究方向為深度學習和計算機視覺,曾獲國家獎學金、江蘇省三好學生等榮譽。
發表論文累計被引超過 190 次,合譯《模式識別》一書,曾獲 2016 年 CVPR 視頻表象性格分析競賽世界冠軍。
現任騰訊在線視頻研究員,專註於騰訊視頻等場景下的相關視頻理解任務。
曾任騰訊優圖實驗室研究員,為“微信看一看”等場景提供相關視頻理解能力。
知乎"張皓”關註深度學習和計算機視覺,擔任多個自媒體作者或專欄作者。
目錄大綱
目錄
第1章 緒論 1
1.1 引言 1
1.2 本書內容 5
1.2.1 圖像分類 7
1.2.2 動作識別 9
1.2.3 時序動作定位 12
1.2.4 視頻 Embedding 14
1.3 本章小結 15
第2章 經典網絡結構回顧 16
2.1 經典圖像分類網絡 16
2.1.1 LetNet-5 16
2.1.2 AlexNet 18
2.1.3 VGGNet 22
2.1.4 GoogLeNet 24
2.1.5 Inception V2/V3 27
2.1.6 ResNet 28
2.1.7 preResNet 31
2.1.8 WRN 32
2.1.9 隨機深度網絡 33
2.1.10 DenseNet 35
2.1.11 ResNeXt 36
2.1.12 SENet 39
2.1.13 MobileNet 41
2.1.14 MobileNet V2/V3 44
2.1.15 ShuffleNet 46
2.1.16 ShuffleNet V2 49
2.2 RNN、LSTM和GRU 51
2.2.1 RNN 51
2.2.2 梯度爆炸與梯度消失 52
2.2.3 LSTM 55
2.2.4 GRU 58
2.3 本章小結 60
第3章 基於2D捲積的動作識別 62
3.1 平均匯合 62
3.2 NetVLAD和NeXtVLAD 64
3.2.1 VLAD 65
3.2.2 NetVLAD 66
3.2.3 NeXtVLAD 71
3.2.4 NetFV和其他策略 75
3.3 利用RNN融合各幀特徵 77
3.3.1 2D捲積 + RNN的基本結構 78
3.3.2 對RNN結構進行改造 80
3.4 利用3D捲積融合各幀特徵 81
3.4.1 什麼是3D捲積 82
3.4.2 ECO 85
3.5 雙流法 87
3.5.1 什麼是光流 87
3.5.2 雙流法的基本網絡結構 89
3.5.3 雙流法的網絡結構優化 91
3.6 時序稀疏採樣 95
3.6.1 TSN 95
3.6.2 TSN的實現 98
3.6.3 ActionVLAD 99
3.6.4 StNet 100
3.6.5 TRN 102
3.7 利用iDT軌跡 104
3.7.1 DT和iDT 104
3.7.2 TDD 107
3.8 本章小結 108
第4章 基於3D捲積的動作識別 110
4.1 3D捲積基礎網絡結構 110
4.1.1 C3D 110
4.1.2 Res3D/3D ResNet 113
4.1.3 LTC 116
4.2 I3D 118
4.2.1 5類動作識別網絡 118
4.2.2 2D捲積擴展為3D捲積 119
4.2.3 5類網絡對比 121
4.3 3D捲積的低秩近似 123
4.3.1 低秩近似的基本原理 124
4.3.2 FSTCN 125
4.3.3 P3D 127
4.3.4 R(2+1)D 129
4.3.5 S3D 132
4.4 TSM 135
4.5 3D捲積 + RNN 137
4.6 ARTNet 139
4.7 Non-Local 141
4.7.1 Non-Local 操作 141
4.7.2 Non-Local 動作識別網絡 144
4.8 SlowFast 148
4.8.1 Slow分支和Fast分支 149
4.8.2 網絡結構設計 151
4.9 3D捲積神經網絡超參數設計 152
4.9.1 多網格訓練 152
4.9.2 X3D 154
4.10 本章小結 157
第5章 時序動作定位 159
5.1 基於滑動窗的算法 160
5.1.1 S-CNN 161
5.1.2 TURN 166
5.1.3 CBR 169
5.2 基於候選時序區間的算法 171
5.2.1 Faster R-CNN 回顧 172
5.2.2 R-C3D 175
5.2.3 TAL-Net 178
5.3 自底向上的時序動作定位算法 183
5.3.1 BSN 183
5.3.2 TSA-Net 187
5.3.3 BMN 191
5.4 對時序結構信息建模的算法 197
5.4.1 TAG 候選時序區間生成算法 198
5.4.2 SSN 網絡結構 199
5.5 逐幀預測的算法 202
5.5.1 CDC層 203
5.5.2 CDC 網絡結構 206
5.6 單階段算法 208
5.6.1 SSAD 208
5.6.2 SS-TAD 212
5.6.3 GTAN 214
5.7 本章小結 217
第6章 視頻Embedding 219
6.1 基於視頻內容的無監督 Embedding 220
6.1.1 編碼-解碼網絡 221
6.1.2 視頻序列驗證 222
6.1.3 視頻和音頻信息 224
6.1.4 視頻和文本信息 225
6.2 Word2Vec 229
6.2.1 CBOW和Skip-Gram 229
6.2.2 分層 Softmax 234
6.2.3 負採樣 239
6.3 Item2Vec 247
6.3.1 Item2Vec 基本形式 247
6.3.2 Item2Vec的改進 249
6.4 基於圖的隨機遊走 252
6.4.1 DeepWalk 252
6.4.2 Node2Vec 254
6.5 結合一二階相似度 257
6.5.1 LINE 258
6.5.2 SDNE 262
6.6 基於圖的鄰居結點 265
6.6.1 GCN 265
6.6.2 GraphSAGE 269
6.6.3 GAT 272
6.7 基於多種信息學習視頻Embedding 274
6.7.1 召回模型 276
6.7.2 訓練 278
6.8 本章小結 280
附錄A 視頻處理常用工具 281
A.1 FFmpeg 281
A.2 OpenCV 284
A.3 Decord 291
A.4 Lintel 294
參考文獻 296
