以深度學習為基礎的文本檢測算法有基于回歸的模型和基于分割的模型,目前這兩種模型的應用效果各有優(yōu)劣。為解決回歸模型對訓練數(shù)據(jù)的依賴,以及分割模型受目標尺寸影響的問題,本書提出了兩種新的算法:TSFnet和Mnet。 全書分為5章,概述了自然場景下文本檢測的研究現(xiàn)狀,陳述了相關算法的問題、數(shù)據(jù)集與存在的挑戰(zhàn),并通過實驗,對基于融合網(wǎng)絡的TSFnet模型及結合區(qū)域網(wǎng)絡與注意力網(wǎng)絡的Mnet模型進行了詳細的介紹,最后對相關的應用進行了簡介。
本書結構清晰,文字流暢,圖文并茂,適合從事場景文本檢測與識別研究的相關讀者閱讀,也適合作為高校相關專業(yè)學生的參考書。
豐富的圖文講解
先進的文本識別算法
有效的檢測模型
擁有高F測度值
展示了自然場景文本識別的新研究成果
展示了自然場景文本識別的新研究成果
主編:
趙雪專,男,1986年7月出生,講師,博士,博士畢業(yè)于中國科學院大學,主要研究方向為機器學習與模式識別,研究成果主要應用有于計算機視覺領域。近年來,主持或參與多項國家和省部級科研項目,發(fā)表相關學術論文20余篇。申請專利24項,其中授權13項。主持完成多項橫向項目,如探地雷達定位系統(tǒng)、視頻摘要系統(tǒng)、智能視頻監(jiān)控系統(tǒng)、DSP無線車型識別系統(tǒng)、疲勞檢測系統(tǒng)等。
副主編:
李玲玲,女,1973年1月出生,教授,博士后,鄭州航空工業(yè)管理學院智能工程學院院長,多模信息感知河南省工程實驗室主任、河南省航空物流大數(shù)據(jù)工程研究中心主任。博士畢業(yè)于華中科技大學圖像識別與人工智能研究所,廈門大學博士后流動站出站。研究方向為計算機視覺。河南省創(chuàng)新人才杰出青年,河南省學術技術帶頭人,河南省“創(chuàng)新型科技團隊”帶頭人、河南省高?萍紕(chuàng)新團隊帶頭人、鄭州市科技創(chuàng)新團隊帶頭人,河南省高等學校青年骨干教師,河南省教育廳學術帶頭人,河南省計算機教育學會常務理事。國家自然科學基金評審,通信學報、中國圖像圖形學報、武漢大學學報等評審。主持國家自然科學基金面上項目、人才支持計劃、河南省科技創(chuàng)新杰出青年基金、航空科學基金、河南省科技攻關項目等科研項目16項;完成省級項目鑒定9項;出版科研5部;先后獲得河南省科學技術進步三等獎等獎項15項。
羅向陽,男,1978年生,戰(zhàn)略支援部隊信息工程大學教授、博導,河南省網(wǎng)絡空間態(tài)勢感知重點實驗室主任,國防科技青年基金獲得者,先后入選河南省科技創(chuàng)新杰出青年和杰出人才、中原科技創(chuàng)新領軍人才。先后主持國家自然科學基金5項(其中重點項目2項),國家863項目軍口課題、國家重點研發(fā)計劃課題、裝發(fā)預研重點項目等國家、軍隊和省部級科研項目30余項,在IEEE JSAC、TIFS、TDSC、TII、TMM、TCSVT、TCC、TCSS、ACM TIOT、ACM TIOS、ACM TOMM、IEEE/ACM TNET、《中國科學》、《計算機學報》、《軟件學報》、《計算機研究與發(fā)展》和IJCAI、WWW、INFOCOM、ACM MM、IH、IH&MMSec等國內外重要學術期刊/會議發(fā)表論文200余篇,其中被SCI檢索120余篇,5篇論文入選ESI高被引論文。在科學出版社出版《網(wǎng)絡空間測繪》專著1部,獲發(fā)明專利授權30余項。先后獲百篇優(yōu)博提名獎和全軍博士學位論文獎,獲技術發(fā)明一等獎和中國電子學會技術發(fā)明一等獎各1項、軍隊和河南省科技進步二等獎4項,軍隊教學成果二等獎1項,指導研究生獲全軍和河南省學位論文4篇。
目 錄
第 1章 緒論 1
1.1研究背景 1
1.2 問題與挑戰(zhàn) 3
1.3主要研究內容 5
1.4 本文的組織結構 5
第 2章 場景文本檢測算法綜述 7
2.1簡介 7
2.2場景文本檢測和識別過程概述 8
2.3場景文本檢測和識別算法分類 10
2.3.1基于傳統(tǒng)機器學習的場景文本檢測和識別算法 10
2.3.2基于深度學習的場景文本檢測和識別算法 28
2.4文本檢測和識別的評價指標 41
2.5文本檢測和識別的數(shù)據(jù)集 42
2.5.1 ICDAR數(shù)據(jù)集 42
2.5.2 SVT數(shù)據(jù)集 44
2.5.3 IIIT數(shù)據(jù)集 45
2.5.4 KAIST數(shù)據(jù)集 46
2.5.5 CTW數(shù)據(jù)集 46
2.5.6 RCTW-17數(shù)據(jù)集 47
2.5.7 ICPR MWI 2018數(shù)據(jù)集 48
2.5.8 Total-Text數(shù)據(jù)集 48
2.5.9 Google FSNS數(shù)據(jù)集 49
2.5.10 COCO-TEXT數(shù)據(jù)集 49
2.5.11 Synthetic數(shù)據(jù)集 50
2.6 總結 50
第3章 基于融合網(wǎng)絡的TSFnet模型 52
3.1 問題形成 52
3.2 相關研究 52
3.2.1基于回歸的模型 53
3.2.2 基于分割的模型 53
3.3 TSFnet 54
3.4實驗 60
3.4.1評價指標 60
3.4.2 參數(shù)設置 60
3.4.3 結果與分析 61
3.5 本章小結 64
第4章 結合區(qū)域建議網(wǎng)絡與注意力網(wǎng)絡的Mnet算法 66
4.1 問題形成 66
4.2 相關研究 66
4.2.1基于回歸的模型 66
4.2.2 基于分割的模型 67
4.2.3 兩階段檢測模型 67
4.3 Mnet 68
4.3.1 Scale-RPN 69
4.3.2回歸網(wǎng)絡 70
4.3.3 分割網(wǎng)絡 70
4.3.4 注意力網(wǎng)絡 71
4.4 實驗 72
4.4.1評價指標 72
4.4.2參數(shù)設置 72
4.4.3實驗對比與分析 73
4.5 本章小結 75
第5章 場景文本檢測與識別應用 77
5.1卡證文字檢測與識別 77
5.1.1證件文字檢測與識別 77
5.1.2 銀行卡文字檢測與識別 79
5.1.3 名片文字檢測與識別 79
5.1.4 營業(yè)執(zhí)照文字檢測與識別 80
5.2票據(jù)文字檢測與識別 80
5.3汽車場景文字檢測與識別 81
5.3.1 車牌檢測與識別 81
5.3.2 汽車VIN碼檢測與識別 83
5.4 文檔文字檢測與識別 83
5.5 自然場景文字檢測識別 84
第6章 總結與展望 86
6.1 總結 86
6.2展望 86
參考文獻 88