圖像識別——深度學習模型理論與實戰

於浩文

  • 出版商: 清華大學
  • 出版日期: 2024-02-01
  • 售價: $474
  • 貴賓價: 9.5$450
  • 語言: 簡體中文
  • ISBN: 7302652651
  • ISBN-13: 9787302652656
  • 相關分類: DeepLearning
  • 立即出貨 (庫存 < 4)

  • 圖像識別——深度學習模型理論與實戰-preview-1
  • 圖像識別——深度學習模型理論與實戰-preview-2
  • 圖像識別——深度學習模型理論與實戰-preview-3
圖像識別——深度學習模型理論與實戰-preview-1

商品描述

本書專註於深度學習在圖像識別領域的應用。不僅詳細講解了各種模型的理論知識,還為讀者提供了豐富的實踐操作指南。旨在為讀者提供一個從基礎到高級的全方位指導,涵蓋2012至2023間的經典和前沿模型。 本書在第1章介紹人工智能在電腦視覺領域的現狀,第2章和第3章是編程基礎章節,有基礎的同學可以跳過閱讀。第4章和第5章詳細講解捲積算法和基於捲積算法具有里程碑意義的模型。第6章介紹工業中常用的輕量級捲積模型。第7章和第8章對現階段前沿的圖像識別模型進行講解。 本書適合對圖像識別領域感興趣的本科生、研究生及圖像識別從業者。對於新入門的同學,本書提供了豐富的預備知識,而對於有經驗的讀者,可以直接跳入高級章節。

目錄大綱

目錄

本書源碼

附贈資源

第1章人工智能介紹

1.1什麽是人工智能

1.2人工智能的3次浪潮

1.2.1人工智能的第1次浪潮

1.2.2人工智能的第2次浪潮

1.2.3人工智能的第3次浪潮

1.3人工智能發展的必備三要素

1.3.1人工智能發展的基石: 數據

1.3.2人工智能發展的動力: 算法

1.3.3人工智能發展的手段: 算力

1.4人工智能的美好願景

1.4.1烏鴉與鸚鵡的啟示

1.4.2人工智能到底有多智能

第2章深度學習環境配置

2.1專業名稱和配置方案介紹

2.1.1專業名稱介紹

2.1.2Windows配置PyTorch深度學習環境初級方案

2.1.3Windows配置PyTorch深度學習環境進階方案

2.2Anaconda配置Python和PyTorch

2.2.1Anaconda簡介

2.2.2Windows系統安裝Anaconda

2.2.3Linux系統安裝Anaconda

2.2.4Anaconda的快速入門

2.2.5Anaconda配置PyTorch深度學習環境

2.3配置VS Code和Jupyter的Python環境

2.3.1VS Code下載與安裝

2.3.2VS Code配置Python環境

2.3.3Jupyter Notebook中配置Python環境

2.4配置Windows 11和Linux雙系統

2.4.1Windows 11配置WSL 2的詳細步驟

2.4.2Windows 11配置WSL 2的常見錯誤

2.4.3VS Code遠程連接WSL 2

2.5配置Docker深度學習開發環境

2.5.1Docker安裝的先決條件

2.5.2安裝Docker Desktop

2.5.3拉取Docker鏡像

2.5.4快速入門Docker終端的使用

2.5.5VS Code使用Docker的快速入門

第3章編程語言快速入門

3.1Python的起源、歷史和應用場景

3.1.1Python的起源

3.1.2Python的歷史

3.1.3Python的應用場景

3.2Python的基礎知識

3.2.1註釋

3.2.2六大數據類型

3.3Python的判斷與循環語句

3.3.1比較運算符和關系運算符

3.3.2判斷語句

3.3.3循環語句

3.4Python中的函數

3.4.1函數的定義

3.4.2函數中的變量

3.4.3高級函數用法

3.4.4Python中的文件操作函數

3.5Python中的面向對象編程

3.5.1面向對象編程 VS 面向過程編程

3.5.2類與對象

3.5.3魔法方法

3.5.4類屬性和類方法

3.5.5繼承

3.5.6多態

3.5.7模塊的介紹和製作

3.5.8Python中的包和庫

3.5.9Python的pip命令

3.6PyTorch的基礎知識

3.6.1PyTorch的基本數據類型

3.6.2張量的索引、切片與維度變換

3.6.3張量的拼接、拆分與統計

第4章捲積神經網絡理論基礎

4.1全連接神經網絡

4.1.1線性模型

4.1.2回歸與分類

4.1.3感知機模型

4.1.4激活函數

4.1.5維度詛咒

4.1.6過擬合與欠擬合

4.1.7正則

4.1.8數據增強

4.1.9數值不穩定性

4.2基於梯度下降的優化算法

4.2.1優化算法的數學基礎

4.2.2優化器

4.3捲積神經網絡

4.3.1捲積神經網絡的計算

4.3.2捲積的設計思想

4.3.3捲積對圖像的特徵提取過程

4.3.4捲積模型實現圖像識別

4.3.5捲積神經網絡的層級結構和感受野

4.3.6第1個捲積神經網絡模型: LeNet

第5章那些年我們追過的ImageNet圖像識別大賽

5.1ImageNet

5.1.1什麽是ImageNet

5.1.2ImageNet數據集

5.1.3ImageNet圖像分類大賽

5.2AlexNet: 拉開深度學習序幕

5.2.1AlexNet理論

5.2.2AlexNet代碼

5.2.3AlexNet模型小結

5.3ZFNet: 開創捲積模型的可解釋性

5.3.1ZFNet簡介

5.3.2對捲積計算結果的可視化

5.3.3網絡中對不同特徵的學習速度

5.3.4圖片平移、縮放、旋轉對CNN的影響

5.3.5ZFNet的改進點

5.3.6遮擋對捲積模型的影響

5.3.7ZFNet的調參實驗

5.3.8ZFNet的模型代碼實現

5.3.9ZFNet模型小結

5.4VGGNet:  探索深度的力量

5.4.1VGGNet模型總覽

5.4.2網絡貢獻總結

5.4.3VGGNet的模型代碼實現

5.4.4VGGNet模型小結

5.5GoogLeNet: 探索寬度的力量

5.5.1GoogLeNet V1

5.5.2GoogLeNet V2

5.5.3GoogLeNet V3

5.5.4GoogLeNet V4

5.5.5GoogLeNet V5

5.6ResNet: 神來之“路”

5.6.1深度學習網絡退化問題

5.6.2殘差連接

5.6.3ResNet模型的網絡結構

5.6.4殘差的調參

5.6.5殘差連接的淵源

5.6.6殘差連接有效性的解釋

5.6.7ResNet的變體

5.6.8ResNeXt

5.7DenseNet: 特徵復用

5.7.1模型設計動機

5.7.2DenseNet模型結構

5.7.3DenseNet模型比較

5.8SENet: 通道維度的註意力機制

5.8.1SENet模型總覽

5.8.2SE模塊

5.8.3SENet效果

5.8.4SENet模型小結

第6章易於應用部署的輕量捲積模型

6.1MobileNet V1: 為移動端量身打造的輕量級模型

6.1.1模型設計動機

6.1.2深度可分離捲積

6.1.3MBConv模塊

6.1.4MobileNet V1模型結構

6.1.5MobileNet V1模型小結

6.2MobileNet V2: 翻轉殘差與線性瓶頸的效率變革

6.2.1逆殘差結構

6.2.2線性瓶頸結構

6.2.3MobileNet V2模型結構

6.2.4MobileNet V2模型小結

6.3MobileNet V3: 結合自動搜索的移動端網絡標桿

6.3.1優化網絡深層結構

6.3.2hswish激活函數

6.3.3SENet

6.3.4MobileNet V3模型結構

6.3.5MobileNet V3模型小結

6.4ShuffleNet V1: 重新洗牌的高效捲積網絡

6.4.1組捲積

6.4.2通道打散操作

6.4.3ShuffleNet模塊

6.4.4ShuffleNet V1模型結構

6.4.5ShuffleNet V1模型小結

6.5ShuffleNet V2: 輕量級設計的網絡優化版

6.5.1ShuffleNet V2模型設計動機

6.5.2輕量級網絡設計的5個經驗總結

6.5.3ShuffleNet V2模型結構

6.5.4ShuffleNet V2模型小結

6.6EfficientNet V1: 縮放模型的全新視角

6.6.1EfficientNet V1模型設計動機

6.6.2深度學習模型的3種縮放方法

6.6.3EfficientNet V1模型的縮放比率

6.6.4EfficientNet V1模型結構

6.6.5EfficientNet V1模型小結

6.7EfficientNet V2: 融合速度與精度的高效網絡

6.7.1EfficientNet V2模型設計動機

6.7.2EfficientNet模型的問題

6.7.3EfficientNet V2模型的改進

6.7.4EfficientNet V2模型小結

6.8RepVGG: 以簡化網絡結構為核心的下一代模型

6.8.1RepVGG模型設計動機

6.8.2RepVGG模型結構

6.8.3RepVGG重參數化

6.8.4RepVGG模型小結

第7章Transformer的強勢入侵

7.1Transformer模型

7.1.1Transformer算法解讀

7.1.2自註意力層

7.1.3多頭自註意力層

7.1.4編碼器結構

7.1.5解碼器結構

7.1.6線性頂層和Softmax層

7.1.7輸入數據的向量化

7.1.8Transformer模型小結

7.2Vision Transformer模型: 從NLP到CU的Transformer算法變革

7.2.1ViT框架

7.2.2圖片數據的向量化

7.2.3ViT的Transformer編碼器

7.2.4MLP Head模塊

7.2.5ViT模型縮放

7.2.6混合ViT模型

7.2.7ViT模型小結

7.3Swin Transformer模型: 窗口化的Transformer

7.3.1Swin Transformer網絡整體框架

7.3.2Patch Merging詳解

7.3.3WMSA詳解

7.3.4SWMSA詳解

7.3.5相對位置偏置詳解

7.3.6Swin Transformer模型詳細配置參數

7.3.7Swin Transformer模型討論與總結

7.4VAN視覺註意力網絡: 基於捲積實現的註意力機制

7.4.1相關工作

7.4.2大核註意力機制

7.4.3視覺註意力網絡

7.4.4VAN模型小結

7.5ConvNeXt模型: 披著“Transformer”的“CNN”

7.5.1模型和訓練策略選擇

7.5.2Macro Design

7.5.3模仿ResNeXt模型

7.5.4Inverted Bottleneck反向瓶頸結構

7.5.5Large Kernel Sizes

7.5.6Micro Design

7.5.7ConvNeXt模型縮放

7.5.8ConvNeXt模型小結

第8章多層感知機的重新思考

8.1MLPMixer模型: 多層感知機的神奇魔法

8.1.1Perpatch全連接層

8.1.2MixerLayer代替自註意力機制

8.1.3MLPMixer模型結構

8.1.4MLPMixer代碼實現

8.1.5MLPMixer模型小結

8.2ASMLP模型: 註意力驅動下的多層感知機升級

8.2.1ASMLP模型

8.2.2ASMLP模型結構

8.2.3ASMLP代碼實現

8.2.4ASMLP模型小結

8.3ConvMixer模型: 捲積與多層感知機的相互借鑒

8.3.1圖像編碼成向量

8.3.2ConvMixer模型

8.3.3ConvMixer網絡結構

8.3.4ConvMixer代碼實現

8.3.5ConvMixer模型小結

8.4MetaFormer模型: 萬法歸一,構建Transformer模板

8.4.1MetaFormer模型

8.4.2MetaFormer模型結構

8.4.3MetaFormer代碼實現

8.4.4MetaFormer模型小結