深度實踐 OCR:基於深度學習的文字識別

劉樹春,賀盼,馬建奇,王佳軍著

  • 出版商: 機械工業
  • 出版日期: 2020-06-01
  • 售價: $534
  • 貴賓價: 9.5$507
  • 語言: 簡體中文
  • 頁數: 322
  • 裝訂: 平裝
  • ISBN: 7111654048
  • ISBN-13: 9787111654049
  • 相關分類: 深度學習 DeepLearning

立即出貨

買這商品的人也買了...

相關主題

商品描述

這是一部融合了企業界先進工程實踐經驗和學術界前沿技術和思想的ORC著作。

本書由阿里巴巴本地生活研究院算法團隊技術專家領銜,
從組件、算法、實現、工程應用等維度系統講解基於深度學習的OCR技術的原理和落地。
書中一步步剖析了算法背後的數學原理,提供大量簡潔的代碼實現,
幫助讀者從零基礎開始構建OCR算法。

全書共10章:
第1章從宏觀角度介紹了ORC技術的發展歷程、概念和產業應用;
第2章講解了OCR的圖像預處理方法;
第3~4章介紹了傳統機器學習方法和深度學習的相關基礎知識;
第5章講解了基於傳統方法和深度學習方法的OCR的數據生成;
第6章講解了與OCR相關的一些高級深度學習方法,方便讀者理解後續的檢測和識別部分;
第7章講解了文字的檢測技術,從通用的目標檢測到文字的檢測,一步步加深讀者對文字檢測問題的認識;
第8章討論了文字識別的相關技術,定位到文字的位置之後,需要對文字的內容進行進一步的解析;
第9章介紹了一些OCR後處理的方法;
第10章介紹了一些版面分析方法。

作者簡介

劉樹春

阿里巴巴本地生活研究院算法專家,前復旦七牛雲聯合實驗室OCR算法負責人,
在OCR相關技術的落地和實現方面有深入的研究和豐富的實踐經驗,
在菜單識別、車牌檢測識別、卡證識別、商業廣告文字檢測和識別、
票據類識別等應用場景中積累了豐富的經驗。
曾經組隊參加COCO競賽、ICDAR刷榜等活動,並發表多篇論文。

賀盼

佛羅里達大學在讀博士,擔任CVPR、ICCV、ECCV等10多家國際頂會審稿人或程序委員,
在場景文本領域發表過多篇國際會議論文(DTRN、CTPN、SSTD等)。
曾經在中科院先進技術研究院、港中文、曠世美國研究院等做過相關研究工作,
對場景文本有深刻的認識,並且對場景文本學術前沿有很強的感知力。

馬建奇

著名的RRPN算法的作者,發表過多篇國際頂會論文,曾經在曠視研究院做過檢測相關的工作,
在上海高等研究院做過文字檢測相關的工作,曾經組隊參加過ICDAR 17 MLT比賽,獲得前三名。
曾獲Facebook研究實習機會。
目前即將開始修讀博士學位,正在做文字識別相關的工作,對於OCR的問題有獨到的見解。

王佳軍

阿里巴巴本地生活研究院高級算法專家,負責本地生活研究院圖像算法團隊的管理、
研發等工作,曾經在滴滴研究院做相關算法的研究。
業餘時間擔任深度學習框架MXNet的技術專家,對實際算法的落地優化等有非常深入的耕耘,
具有很強的OCR相關項目的落地能力。

謝雨飛

趣頭條算法工程師,曾在七牛雲做OCR、NLP相關算法的研究工作,發表過多篇國際論文。

陳明曦

紐約大學碩士研究生,曾在七牛雲從事OCR相關工作,發表相關論文數篇。

目錄大綱

推薦序
前言
第1章緒論 1
1.1 人工智能大潮中的OCR發展史 1
1.1.1 傳統OCR方法一般流程 3
1.1.2 基於深度學習OCR方法一般流程 5
1.2 文字檢測 6
1.3 文字識別 8
1.4 產業應用現狀10
1.5 本章小結11
1.6 參考文獻11

第2章圖像預處理13
2.1 二值化13
2.1.1 全局閾值方法13
2.1.2 局部閾值方法17
2.1.3 基於深度學習的方法20
2.1.4 其他方法22
2.2 平滑去噪26
2.2.1 空間濾波26
2.2.2 小波閾值去噪28
2.2.3 非局部方法29
2.2.4 基於神經網絡的方法33
2.3 傾斜角檢測和校正35
2.3.1 霍夫變換36
2.3.2 Radon 變換38
2.3.3 基於PCA 的方法38
2.4 實戰39
2.5 參考文獻43

第3章傳統機器學習方法緒論45
3.1 特徵提取方法45
3.1.1 基於結構形態的特徵提取45
3.1.2 基於幾何分佈的特徵提取61
3.2 分類方法模型63
3.2.1 支持向量機63
3.2.2 K近鄰算法65
3.2.3 多層感知器70
3.3 實戰:身份證號碼的識別71
3.3.1 核心代碼71
3.3.2 測試結果78
3.4 本章小結79
3.5 參考文獻79

第4章深度學習基礎知識80
4.1 單層神經網絡80
4.1.1 神經元80
4.1.2 感知機81
4.2 雙層神經網絡82
4.2.1 雙層神經網絡簡介82
4.2.2 常用的激活函數83
4.2.3 反向傳播算法86
4.3 深度學習87
4.3.1 卷積神經網絡88
4.3.2 常用優化算法90
4.4 訓練網絡技巧92
4.4.1 權值初始化92
4.4.2 L1/L2正則化93
4.4.3 Dropout 94
4.5 實戰95
4.6 參考文獻97

第5章數據生成99
5.1 背景介紹99
5.2 傳統單字OCR數據生成100
5.3 基於深度學習的OCR數據生成101
5.3.1 文字檢測數據的生成101
5.3.2 檢測圖片生成103
5.3.3 其他方法112
5.3.4 識別數據生成113
5.4 通過GAN的技術生成數據114
5.4.1 GAN背景介紹114
5.4.2 GAN的原理116
5.4.3 GAN的變種117
5.5 圖像增廣123
5.5.1 常用的圖像增強方法123
5.5.2 深度學習方法126
5.6 常用的開源數據集128
5.7 ICDAR的任務和數據集131
5.8 本章小結138
5.9 參考文獻138

第6章深度學習高級方法140
6.1 圖像分類模型140
6.1.1 LeNet5 140
6.1.2 AlexNet 142
6.1.3 VGGNet 143
6.1.4 GoogLeNet 144
6.1.5 ResNet 147
6.1.6 DenseNet 151
6.1.7 SENet 153
6.1.8 輕量化網絡154
6.2 循環神經網絡154
6.2.1 RNN網絡154
6.2.2 GRU 156
6.2.3 GRU的實現158
6.2.4 LSTM網絡160
6.3 Seq2Seq 163
6.4 CTC Loss 164
6.4.1 算法詳解166
6.4.2 前向傳播168
6.4.3 後向傳播173
6.4.4 前向/後向算法173
6.4.5 CTC算法特性174
6.4.6 代碼解析175
6.5 Attention 178
6.6 本章小結181
6.7 參考文獻182

第7章文字檢測183
7.1 研究意義183
7.2 目標檢測方法185
7.2.1 目標檢測相關術語186
7.2.2 傳統檢測方法189
7.2.3 Two-stage 方法195
7.2.4 One-stage 方法210
7.3 文本檢測方法217
7.3.1 傳統文本檢測方法217
7.3.2 基於深度學習的文本檢測方法222
7.4 本章小結228
7.5 參考文獻228

第8章字符識別232
8.1 任務概覽232
8.2 數據集說明233
8.2.1 數據集意義233
8.2.2 常見識別數據集介紹234
8.3 評測指標238
8.3.1 編輯距離239
8.3.2 歸一化編輯距離239
8.3.3 字符準確度239
8.3.4 詞準確率239
8.3.5 語境相關的評測方式239
8.4 主流算法介紹240
8.4.1 傳統光學方法240
8.4.2 完全基於深度學習的方法244
8.5 CRNN模型實戰274
8.5.1 簡介274
8.5.2 運行環境274
8.5.3 測試部分講解274
8.5.4 測試運行結果279
8.5.5 訓練部分279
8.5.6 用ICDAR2013數據集訓練CRNN模型282
8.6 本章小結284
8.7 參考文獻285

第9章OCR後處理方法288
9.1 文本糾錯288
9.1.1 BK-tree 289
9.1.2 基於語言模型的中文糾錯293
9.2 文本結構化297
9.2.1 模板匹配298
9.2.2 文本分類300
9.3 本章小結304
9.4 參考文獻304

第10章版面分析306
10.1 版面分析詳解306
10.2 複雜版面識別309
10.3 文檔恢復310
10.4 本章小結311
10.5 參考文獻311