關(guān)于我們
書單推薦
新書推薦
|
MATLAB計(jì)算機(jī)視覺與機(jī)器認(rèn)知(集理論、算法、代碼于一體,快速實(shí)現(xiàn)入門到精通的飛躍) MATLAB計(jì)算機(jī)視覺與機(jī)器認(rèn)知 這是一本用 MATLAB演示計(jì)算機(jī)視覺原理的基礎(chǔ)理論著作,從*初等的視頻圖像轉(zhuǎn)換入手,層層遞進(jìn),理論與實(shí)戰(zhàn)并重但側(cè)重于實(shí)戰(zhàn),借助混合編程及圖形用戶界面(GUI)設(shè)計(jì),以簡(jiǎn)潔的方式展現(xiàn)了有一定挑戰(zhàn)性的視頻識(shí)別、目標(biāo)跟蹤、行為分析等關(guān)鍵視覺技術(shù);同時(shí)擴(kuò)展到機(jī)器認(rèn)知層面,介紹儀器字符識(shí)別、機(jī)器故障診斷等有趣的應(yīng)用,使讀者可以在*短的時(shí)間內(nèi)完成入門、進(jìn)階、精通與實(shí)戰(zhàn)的跨越。 本書主編、副主編均在中國科學(xué)院、985工程大學(xué)國家重點(diǎn)實(shí)驗(yàn)室從事智能算法設(shè)計(jì)與應(yīng)用的研究,部分理論功底扎實(shí)的優(yōu)秀研究生也參加了主要章節(jié)的編撰。 本書既可作為算法工程師、高校教師和廣大科技工作者的參考資料,也可作為高校相關(guān)專業(yè)的研究生教材和高年級(jí)大學(xué)生畢業(yè)設(shè)計(jì)的工具書。 算法思想建模過程編程實(shí)現(xiàn)GUI設(shè)計(jì),理論與實(shí)戰(zhàn)并重,講透計(jì)算機(jī)視覺! 隨書附贈(zèng)1.4GB的程序和數(shù)據(jù),掃描書中的二維碼即可免費(fèi)下載。 MATLAB中文論壇為本書設(shè)有專門的交流版塊,您有任何與本書有關(guān)的疑問,敬請(qǐng)來詢。 前言 計(jì)算機(jī)視覺是與機(jī)器認(rèn)知密切聯(lián)系的一門學(xué)科,其研究的目的就是給計(jì)算機(jī)賦予人的視覺特性,使之更好地服務(wù)于人類。 同時(shí),計(jì)算機(jī)視覺與機(jī)器認(rèn)知的結(jié)合可以為工業(yè)機(jī)器人提供更多有利于優(yōu)化產(chǎn)品質(zhì)量和生產(chǎn)流程的技術(shù)支持。 此外,機(jī)器人技術(shù)要在圖像視頻數(shù)據(jù)采集分析的基礎(chǔ)上才能完成智能判斷和決策,這就必須借助計(jì)算機(jī)視覺搭建高精度的識(shí)別系統(tǒng)。目前大多數(shù)機(jī)器人都被看作是笨拙的、緩慢的、缺乏智能的,只能夠用來完成一些非常特定的任務(wù)。 但是,由于全球城市化進(jìn)程的推進(jìn)和機(jī)器人時(shí)代的來臨,未來較長(zhǎng)一段時(shí)期內(nèi),將有大量體力、腦力勞動(dòng)需要借助機(jī)器人智能技術(shù)來完成。 可以預(yù)見,計(jì)算機(jī)視覺與機(jī)器認(rèn)知作為人工智能應(yīng)用的關(guān)鍵方向與機(jī)器人技術(shù)的核心研究領(lǐng)域,即將面臨前所未有的機(jī)遇和挑戰(zhàn)。 美國和歐洲等發(fā)達(dá)國家和地區(qū)已經(jīng)把計(jì)算機(jī)視覺與機(jī)器認(rèn)知列為對(duì)經(jīng)濟(jì)社會(huì)和人類發(fā)展具有深遠(yuǎn)意義的重大研究課題。 例如,計(jì)算機(jī)視覺已成為谷歌大腦等研究計(jì)劃中的核心項(xiàng)目,谷歌正試圖依托其龐大的數(shù)據(jù)和語音語義分析與計(jì)算架構(gòu),創(chuàng)造更強(qiáng)大的認(rèn)知智能,并且在未來顛覆搜索,創(chuàng)造一個(gè)不需要搜索的世界,可以提前預(yù)知人的需求并給出解決方案。 我國十三五規(guī)劃將大數(shù)據(jù)、機(jī)器人產(chǎn)業(yè)作為國家戰(zhàn)略,計(jì)算機(jī)視覺與機(jī)器認(rèn)知作為國家政策重點(diǎn)支持的研究領(lǐng)域,勢(shì)必也對(duì)我國科技自主創(chuàng)新、高科技成果突破產(chǎn)生有益的推進(jìn)。 計(jì)算機(jī)視覺與機(jī)器認(rèn)知均為富有挑戰(zhàn)性和學(xué)科綜合性的科學(xué)研究領(lǐng)域,其研究方法涉及泛函分析、代數(shù)幾何、概率統(tǒng)計(jì)、微分方程、最優(yōu)化等多個(gè)數(shù)學(xué)學(xué)科。 龐大的數(shù)學(xué)方法體系正是計(jì)算機(jī)視覺技術(shù)的魔力所在,也是機(jī)器認(rèn)知最難跨越的障礙之一。 在此背景下,我于2014年開始借助互聯(lián)網(wǎng)平臺(tái)宣講計(jì)算機(jī)視覺與機(jī)器認(rèn)知相關(guān)學(xué)科的高級(jí)數(shù)學(xué)理論,目前已有數(shù)百名高校教師、算法工程師、博士及碩士研究生參與,我們將編程理論與算法原理體系有機(jī)結(jié)合起來,展開亦師亦友的在線交流,形成了一個(gè)非正式學(xué)術(shù)組合CV MATH。 經(jīng)過三年的努力,一起互助互學(xué)、共同進(jìn)步,我們對(duì)計(jì)算機(jī)視覺、機(jī)器認(rèn)知與數(shù)學(xué)方法的關(guān)系也有了更深刻的認(rèn)識(shí),很希望把我們的交流心得分享給大家,這便是撰寫本書的初衷。 本 書 目 的 本書將計(jì)算機(jī)視覺與機(jī)器認(rèn)知作為一個(gè)有機(jī)整體來研究,改變了計(jì)算機(jī)視覺研究的方式;基于作者主持和參與的中國科學(xué)院西部之光項(xiàng)目(XBBS 2014 16)、國家千人計(jì)劃項(xiàng)目(Y474161)和深圳市基礎(chǔ)研究項(xiàng)目(JCYJ20150630114942260)等研究積累,一層一層、循序漸進(jìn)地剖析在計(jì)算機(jī)視覺與機(jī)器認(rèn)知中的數(shù)學(xué)問題、建模思想、算法原理與編程技巧。 全書理論與實(shí)戰(zhàn)并重,但仍側(cè)重于實(shí)戰(zhàn),探索有一定挑戰(zhàn)性的視頻識(shí)別技術(shù),同時(shí)兼顧圖像分析處理的常用技術(shù)及儀器字符識(shí)別、機(jī)器故障診斷等有趣的認(rèn)知問題,提供了價(jià)值較高的MATLAB編程及混編實(shí)例。 通過對(duì)數(shù)學(xué)模型的推導(dǎo)和配套代碼的調(diào)試,讀者可以更加深刻地了解計(jì)算機(jī)視覺與機(jī)器認(rèn)知的算法流程,輕松領(lǐng)悟各類算法設(shè)計(jì)的主要思想。 本書力求為計(jì)算機(jī)視覺與機(jī)器認(rèn)知的研究提供較系統(tǒng)、較便捷的數(shù)學(xué)方法體系,解決研究算法設(shè)計(jì)和應(yīng)用過程中較具體的數(shù)學(xué)問題。 這些問題與方法來源于作者在項(xiàng)目研究中發(fā)現(xiàn)的實(shí)際問題和積累的實(shí)戰(zhàn)經(jīng)驗(yàn),對(duì)計(jì)算機(jī)視覺與機(jī)器認(rèn)知相關(guān)項(xiàng)目研究有一定的啟發(fā)。 同時(shí),考慮到高年級(jí)大學(xué)生畢業(yè)設(shè)計(jì)和其他對(duì)計(jì)算機(jī)視覺感興趣的入門讀者的特殊需求,本書盡可能地與一些有趣的大眾應(yīng)用緊密結(jié)合,以便讀者可以有針對(duì)性地進(jìn)行算法調(diào)試、運(yùn)行和仿真,快速入門,更有效地進(jìn)行科學(xué)實(shí)驗(yàn)或完成畢業(yè)設(shè)計(jì)。 本 書 特 點(diǎn) 作者陣容強(qiáng)大,互補(bǔ)優(yōu)勢(shì)明顯 本書的主編、副主編大都在中國科學(xué)院、985工程大學(xué)國家重點(diǎn)實(shí)驗(yàn)室負(fù)責(zé)認(rèn)知計(jì)算、系統(tǒng)建模、大數(shù)據(jù)分析、機(jī)器人技術(shù)應(yīng)用軟件的研發(fā)工作,部分理論功底扎實(shí)、有實(shí)戰(zhàn)經(jīng)驗(yàn)的優(yōu)秀博士及碩士研究生也參加了主要章節(jié)的編撰,做出了卓有成效的貢獻(xiàn),并形成了強(qiáng)大的作者梯隊(duì)和明顯的互補(bǔ)優(yōu)勢(shì)。 無論是有一定編程基礎(chǔ)的高校教師、科技工作者、算法工程師,還是相關(guān)學(xué)科專業(yè)的博士及碩士研究生、高年級(jí)大學(xué)生,都能通過閱讀本書有所收獲。 技術(shù)來源高端,閱讀價(jià)值較高 不同于其他算法類書籍,本書算法原理與編程技巧并重,同時(shí)也集成了中國科學(xué)院西部之光項(xiàng)目(XBBS 2014 16)、國家千人計(jì)劃項(xiàng)目(Y474161)和深圳市基礎(chǔ)研究項(xiàng)目(JCYJ20150630114942260)等省部級(jí)、國家級(jí)研發(fā)項(xiàng)目部分可公開的技術(shù)成果,這些技術(shù)成果涉及較高端的MATLAB混合編程技術(shù);不同于其他 MATLAB書籍,本書講解的計(jì)算機(jī)視覺與機(jī)器認(rèn)知算法模塊均結(jié)合了圖形用戶界面(GUI) 設(shè)計(jì),提供了直觀的界面演示,這使得初學(xué)者入門更快,開發(fā)應(yīng)用也更容易上手;最后,不同于計(jì)算機(jī)視覺領(lǐng)域其他經(jīng)典理論著作,本書文字力求通俗易懂,一層一層、循序漸進(jìn)地幫讀者搭建思維大樓,閱讀價(jià)值較高。 程序代碼實(shí)用,原創(chuàng)性、可拓展性強(qiáng) 本書借助 MATLAB提供了實(shí)用價(jià)值較高的混編代碼實(shí)例,這些實(shí)例是基于作者在中國科學(xué)院西部之光項(xiàng)目(XBBS 2014 16)、國家千人計(jì)劃項(xiàng)目(Y474161)和深圳市基礎(chǔ)研究項(xiàng)目(JCYJ20150630114942260)等的研究過程進(jìn)行歸納總結(jié)的結(jié)果,大多數(shù)實(shí)例本身就是一個(gè)獨(dú)立的技術(shù)模塊,具有一定的原創(chuàng)性和可拓展性。 作者在此無私分享了在上述省部級(jí)、國家級(jí)項(xiàng)目研究過程中所積累的算法設(shè)計(jì)思想和部分可公開的技術(shù)源代碼,這些程序代碼兼具實(shí)用性和原創(chuàng)性,開發(fā)者可以針對(duì)其工作中的定制化需求,在現(xiàn)有工作基礎(chǔ)上完成二次開發(fā)。 算法分層遞進(jìn),夯實(shí)數(shù)學(xué)基礎(chǔ) 計(jì)算機(jī)視覺與機(jī)器認(rèn)知均為富有挑戰(zhàn)性和學(xué)科綜合性的科學(xué)研究領(lǐng)域,其研究方法涉及泛函分析、代數(shù)幾何、概率統(tǒng)計(jì)、微分方程、最優(yōu)化等多個(gè)數(shù)學(xué)學(xué)科。 龐大的數(shù)學(xué)方法體系正是計(jì)算機(jī)視覺技術(shù)的魔力所在,也是機(jī)器認(rèn)知最難跨越的障礙之一。 本書以視頻識(shí)別跟蹤的技術(shù)流程為主線,算法分層遞進(jìn),讀者通過對(duì)書中理論與模型的閱讀和推導(dǎo),可以更加全面地了解這些關(guān)鍵視覺應(yīng)用技術(shù)的相關(guān)數(shù)學(xué)問題、算法設(shè)計(jì)思想與數(shù)學(xué)建模過程。 本書一層一層、循序漸進(jìn)地解釋圖像分析處理、儀器字符識(shí)別、機(jī)器故障診斷、視頻識(shí)別跟蹤、目標(biāo)理解描述等關(guān)鍵視覺技術(shù)的算法原理和算法實(shí)現(xiàn)流程中的數(shù)學(xué)思想。 內(nèi) 容 架 構(gòu) 全書分為9章,以計(jì)算機(jī)視覺為主,并延伸和擴(kuò)展到機(jī)器認(rèn)知,理論與案例實(shí)踐并重,在有限的篇幅內(nèi)盡可能對(duì)各技術(shù)模塊的算法思想、建模過程、編程實(shí)現(xiàn)及 GUI設(shè)計(jì)等進(jìn)行比較系統(tǒng)的介紹,具體內(nèi)容架構(gòu)如下: 【第1章】 視頻圖像采集及讀取 本章介紹視頻圖像采集與讀取等基礎(chǔ)知識(shí)。 數(shù)字視頻圖像處理是計(jì)算機(jī)視覺與機(jī)器認(rèn)知的基礎(chǔ)。 通常圖像數(shù)據(jù)有兩個(gè)來源,一是由視頻轉(zhuǎn)換得到的圖像序列,二是直接采集的圖像數(shù)據(jù)。 不管是哪一種圖像數(shù)據(jù)來源,MATLAB都可將其以矩陣的形式讀入工作空間,從而將對(duì)視頻圖像的處理簡(jiǎn)化為對(duì)矩陣數(shù)據(jù)的處理。 完成處理之后,又可以通過圖像顯示這一環(huán)節(jié),將矩陣數(shù)據(jù)還原成圖像,當(dāng)然也可以將處理后的圖像序列還原成視頻。 在 MATLAB視頻圖像處理工具箱中就有一些相關(guān)函數(shù)可以直接使用,本章也提供了這些函數(shù)的主要用法及實(shí)例?紤]到本章所有函數(shù)和技術(shù)模塊是全書的基礎(chǔ),所有代碼均給出了詳盡的注釋。 值得一提的是,本章介紹的視頻圖像轉(zhuǎn)換同時(shí)也包含了用 MATLAB設(shè)計(jì) GUI的主要思想及核心代碼, 后續(xù)各章節(jié)的 GUI程序設(shè)計(jì)都以此為基礎(chǔ),繼續(xù)集成常用算法并完成銜接和擴(kuò)展。 【第2章】 視頻圖像變換及融合 視頻變換需要先把視頻轉(zhuǎn)換為圖像,然后進(jìn)行每一幀的圖像變換,完成后再將圖像轉(zhuǎn)換為視頻,因此這里只需要介紹圖像變換。 圖像變換是指用數(shù)學(xué)建模的方法來描述圖像位置、大小和形狀等變化的方法。 實(shí)際應(yīng)用中,如果一幅圖像的畫面過大或過小,均需要對(duì)其進(jìn)行縮小或放大處理。 若拍攝時(shí),景物與攝像頭不成相互平衡的關(guān)系,則圖像會(huì)發(fā)生幾何畸形,比如會(huì)將一個(gè)圓形拍攝成一個(gè)橢圓形。 出現(xiàn)這樣的情況后,需要對(duì)圖像進(jìn)行畸變校正。 對(duì)目標(biāo)物進(jìn)行匹配時(shí),需要對(duì)圖像進(jìn)行縮放、旋轉(zhuǎn)、平移等變換。 所以,圖像變換作為圖像處理和分析的基礎(chǔ),是本章的重點(diǎn)內(nèi)容,而圖像融合作為一個(gè)補(bǔ)充內(nèi)容。 兩個(gè)視頻的融合,需要先把兩個(gè)視頻分別轉(zhuǎn)換為圖像,然后進(jìn)行每一個(gè)對(duì)應(yīng)幀的圖像融合,完成后再將融合的圖像轉(zhuǎn)換為視頻,因此這里只需要介紹圖像融合。 圖像融合是把不同傳感器的同一目標(biāo)或同一場(chǎng)景的兩幅或多幅圖像進(jìn)行綜合,通過多幅圖像間互補(bǔ)信息的利用來提高圖像的可用性、清晰度和可識(shí)別性,從而獲得對(duì)同一場(chǎng)景目標(biāo)更為準(zhǔn)確、可靠、全面的圖像描述,以便更適合人眼的觀察及做進(jìn)一步的技術(shù)處理。 考慮讀者基礎(chǔ)的差異,本章代碼注釋仍然較為詳細(xì)。 【第3章】 視頻圖像噪聲及處理 視頻和圖像作為最常見的視覺信息的基本載體在人們的日常生活和工作中所起的作用越來越顯要,這是其他信息所不能取代的。 然而,在視頻圖像產(chǎn)生、傳輸、量化等過程中,自然圖像常常會(huì)被引入各種噪聲,進(jìn)而導(dǎo)致視頻和圖像質(zhì)量下降,大大增加了信息解譯的復(fù)雜性;同時(shí),降低了視頻圖像的可編譯性,影響了認(rèn)知效果以及信息的可用性,給視頻圖像增強(qiáng)、復(fù)原、重建、識(shí)別等后續(xù)工作帶來了嚴(yán)重的影響。 視頻噪聲處理需要先將視頻轉(zhuǎn)換為圖像,處理完成后再將減少噪聲的圖像轉(zhuǎn)換為視頻,因此這里僅需介紹圖像去噪。 本章主要介紹了圖像去噪的算法設(shè)計(jì)思想及在工程應(yīng)用中涉及到的一系列算法(包括均值濾波、中值濾波、小波閾值濾波、輪廓波變換和非局部均值濾波等),并借助 MATLAB加以實(shí)現(xiàn)。 本章開始接觸到一些真實(shí)的工程應(yīng)用,讀者可以更好地理解算法原理,對(duì)于如何進(jìn)行算法設(shè)計(jì)、數(shù)學(xué)建模,以及如何將算法表達(dá)為代碼將有更加深刻的認(rèn)識(shí)。 【第4章】 視頻圖像閾值及分割 圖像分割(ImageSegmentation)是把圖像分割成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提取出感興趣的目標(biāo)的技術(shù)和過程。 在對(duì)圖像的研究和應(yīng)用中,人們往往僅對(duì)圖像的某些部分(目標(biāo)或背景)感興趣,它們一般對(duì)應(yīng)圖像中的特定的、具有獨(dú)特性質(zhì)的區(qū)域。 為了分析和識(shí)別目標(biāo),需要將它們分割并提取出來。 圖像分割是由圖像處理轉(zhuǎn)到圖像分析的關(guān)鍵。 一方面,它是目標(biāo)圖像表達(dá)的基礎(chǔ),對(duì)特征測(cè)量有重要的影響;另一方面,圖像分割和分割的目標(biāo)表達(dá)、特征提取及參數(shù)測(cè)量等將原始圖像轉(zhuǎn)化為數(shù)學(xué)表達(dá)形式,使得利用計(jì)算機(jī)進(jìn)行圖像分析和理解成為可能。 本章主要介紹圖像分割的基本概念和分割所用的主要方法,具體包括邊緣檢測(cè)、灰度閾值分割、全局閾值分割、動(dòng)態(tài)閾值分割和區(qū)域生長(zhǎng)及分割等一系列常見的圖像分割方法;在代碼注釋上,側(cè)重于前幾章沒有注釋過的技術(shù)模塊,其他基礎(chǔ)部分的代碼注釋被省略,甚至部分基礎(chǔ)代碼不予展示,以便適應(yīng)讀者進(jìn)階的過程與需求。 【第5章】 圖像特征計(jì)算及應(yīng)用 本章以人臉檢測(cè)、行人檢測(cè)等應(yīng)用為例,主要對(duì)圖像處理中的幾個(gè)比較常用的特征提取方法及應(yīng)用實(shí)例進(jìn)行介紹,這些常用的特征包括 Haar-like特征、Hog特征、LBP特征以及SIFT特征。 這些特征都各有優(yōu)缺點(diǎn),在使用的時(shí)候應(yīng)該根據(jù)實(shí)際的場(chǎng)景進(jìn)行選擇,這樣才能夠在識(shí)別性能和運(yùn)算性能之間找到平衡點(diǎn)。 顯而易見,本章已經(jīng)開始接觸一些相對(duì)高級(jí)的工程應(yīng)用了,因此相應(yīng)地對(duì)于每個(gè)技術(shù)模塊,都補(bǔ)充了相關(guān)基礎(chǔ)定義、基礎(chǔ)函數(shù)和基礎(chǔ)模塊的說明。 在介紹 Haar-like特征人臉檢測(cè)之前,說明了 Haar-like特征的種類、計(jì)算和個(gè)數(shù);在介紹 Hog特征行人檢測(cè)之前,介紹了一些必要的準(zhǔn)備工作,包括圖像的預(yù)處理、梯度和滑動(dòng)。 為了適應(yīng)讀者進(jìn)階的需求,在本章的最后兩節(jié),基礎(chǔ)介紹開始精減,重心轉(zhuǎn)移到算法思想上發(fā),在介紹利用LBP特征進(jìn)行紋理分類之前,重點(diǎn)介紹了 LBP 特征的演化;而在介紹利用 SIFT 特征進(jìn)行模板匹配之前,側(cè)重說明了SIFT 算法的特點(diǎn)、設(shè)計(jì)框架與設(shè)計(jì)過程。 【第6章】 運(yùn)動(dòng)目標(biāo)檢測(cè)及跟蹤 運(yùn)動(dòng)目標(biāo)檢測(cè)是計(jì)算機(jī)視覺與機(jī)器認(rèn)知的一個(gè)重要環(huán)節(jié),在計(jì)算機(jī)視覺的多個(gè)應(yīng)用領(lǐng)域,諸如運(yùn)動(dòng)編碼、行為分析及場(chǎng)景理解中,運(yùn)動(dòng)目標(biāo)檢測(cè)一直是研究的熱點(diǎn)問題。 運(yùn)動(dòng)目標(biāo)檢測(cè)的主要目的是將圖像中的前景和背景分割開來,提取感興趣的運(yùn)動(dòng)目標(biāo),并獲取描述每一個(gè)運(yùn)動(dòng)目標(biāo)特征的相關(guān)參數(shù),為解決視覺問題提供必要的信息。 本章介紹運(yùn)動(dòng)目標(biāo)檢測(cè)及跟蹤的算法設(shè)計(jì)思想、數(shù)學(xué)建模過程,并提供算法編程實(shí)現(xiàn)、拓展與優(yōu)化。 這一章開始接觸到更實(shí)用、更高級(jí)的知識(shí)層面,讀者經(jīng)過前面幾章的學(xué)習(xí)已經(jīng)具備了計(jì)算機(jī)視覺研究的基礎(chǔ),相應(yīng)地,本章算法的介紹更加趨于具體化、系統(tǒng)化和數(shù)學(xué)化。 本章介紹了運(yùn)動(dòng)目標(biāo)檢測(cè)及跟蹤的算法設(shè)計(jì)思想、數(shù)學(xué)建模過程和算法編程實(shí)現(xiàn)、拓展與優(yōu)化,其中數(shù)學(xué)建模過程具體介紹了幀間差分法建模和改進(jìn)過程,其后的算法代碼實(shí)現(xiàn)不僅包括了幀間差分法和改進(jìn)的幀間差分法,而且考慮了一些特殊問題與對(duì)應(yīng)的算法,并結(jié)合 MATLAB編程實(shí)現(xiàn)。 【第7章】 目標(biāo)定位及字符識(shí)別 這一章讀者將開始接觸到機(jī)器認(rèn)知層面的知識(shí),具體算法是計(jì)算機(jī)視覺中的圖像目標(biāo)提取和識(shí)別。 同時(shí),有了前面6章的基礎(chǔ),這里不僅僅介紹圖像目標(biāo)提取和識(shí)別,同時(shí)也將深入地介紹視頻識(shí)別與跟蹤。 除此之外,對(duì)于圖像目標(biāo)定位、提取和識(shí)別的算法思想也做了詳盡的描述,而模型方面的介紹也趨于簡(jiǎn)單化,這就意味著從這一章開始,計(jì)算機(jī)視覺研究者就要開始嘗試機(jī)器認(rèn)知層面的應(yīng)用,需要學(xué)會(huì)基于算法的設(shè)計(jì)思想自行完成與機(jī)器認(rèn)知相關(guān)的數(shù)學(xué)建模了。 視頻軌跡分析是目標(biāo)識(shí)別與跟蹤的延伸,為了幫助讀者順利完成計(jì)算機(jī)視覺到機(jī)器認(rèn)知的過渡與銜接,本章從內(nèi)容架構(gòu)上分為圖像目標(biāo)提取與識(shí)別和視頻識(shí)別與軌跡分析,其中圖像目標(biāo)提取與識(shí)別具體分為圖像采集與目標(biāo)檢測(cè)、圖像目標(biāo)歸一化處理及圖像字符提取與識(shí)別,而視頻識(shí)別與軌跡分析則分為問題描述與建模思想、算法功能與技術(shù)流程,最后提供了MATLAB進(jìn)行視頻人臉識(shí)別與跟蹤的核心代碼。 【第8章】 機(jī)器故障認(rèn)知及檢測(cè) 作為前幾章的延伸,本章將進(jìn)一步開闊機(jī)器視覺的研究和應(yīng)用的思路,主要介紹如何用聲音信息進(jìn)行機(jī)器故障診斷。 讀者會(huì)驚喜地發(fā)現(xiàn),這部分?jǐn)U展應(yīng)用不會(huì)占用太多的研究時(shí)間,可作為算法跨領(lǐng)域的擴(kuò)展應(yīng)用,它與圖像濾波去噪算法有很多的相似之處。 這一章將一個(gè)實(shí)際應(yīng)用案例作為一個(gè)專門模塊進(jìn)行系統(tǒng)、全面的介紹,包括機(jī)器故障診斷的問題描述與建模思想、分析過程與編程實(shí)現(xiàn)。 其中,分析過程與編程實(shí)現(xiàn)又具體到該問題的不同方面,包括齒輪振動(dòng)信號(hào)的數(shù)字濾波處理、頻譜分析,波形分析中常用的有量綱指標(biāo)、 無量綱指標(biāo)的計(jì)算,以及齒輪振動(dòng)信號(hào)的相關(guān)分析等。 【第9章】 深度學(xué)習(xí)及人臉識(shí)別 作為前幾章的升華,本章介紹的深度學(xué)習(xí)(DeepLearning,DL),旨在彌補(bǔ)計(jì)算機(jī)視覺與機(jī)器認(rèn)知經(jīng)典算法的不足。 以圖像識(shí)別為例,首先要獲取圖像數(shù)據(jù),然后經(jīng)過預(yù)處理、特征提取、特征選擇,最后進(jìn)行推理、預(yù)測(cè),以實(shí)現(xiàn)圖像識(shí)別。 通過推理、預(yù)測(cè)來實(shí)現(xiàn)圖像識(shí)別的這一階段就是用機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn)的,而數(shù)據(jù)的預(yù)處理、特征提取以及特征選擇這一階段也至關(guān)重要,這一階段稱為特征表達(dá)。 良好的特征表達(dá)對(duì)最終算法的有效性影響非常大,而特征表達(dá)一般都是靠人工完成的,包括人工提取特征、人工選擇特征,能否獲取良好的特征很大程度上需要靠經(jīng)驗(yàn)和運(yùn)氣,并且費(fèi)時(shí)。 DL 就可以很好地解決這一問題。 由于涉及到 MATLAB 與Caffe的混合編程,所以對(duì) MATLAB混合編程、Caffe語言以及 DL工具箱也進(jìn)行了比較系統(tǒng)的介紹,主要包括算法形成背景、算法基本思想、算法數(shù)學(xué)原理及人臉識(shí)別應(yīng)用等方面。 其中,為了更好地幫助讀者理解深度學(xué)習(xí)算法,將算法數(shù)學(xué)原理的解釋作為本章的重點(diǎn),具體地分為權(quán)值共享、CNN 結(jié)構(gòu)、算法設(shè)計(jì)框架、混合編程思想和算法應(yīng)用詳解等方面。 作 者 貢 獻(xiàn) 第1章主要由余維、王文峰編寫,第2章主要由曾凡玉、馬海菲、何姣姣編寫,第3章主要由劉帥奇、王文峰編寫,第4章主要由王平、王文峰編寫,第5章主要由張鋒、王文峰編寫,第6章主要由伍鵬、王文峰編寫,第7章主要由王文峰、劉衍琦編寫,第8章主要由邵永勝、王文峰編寫,第9章主要由鄒輝、王文峰編寫。 在全書各章節(jié)撰寫及審校過程中,郭裕蘭對(duì)算法思想、建模過程、程序代碼進(jìn)行了修改、補(bǔ)充與完善。 各章節(jié)配套的 GUI程序主要由劉衍琦提供,阮俊虎、王海洋也參與了部分章節(jié)的 GUI程序設(shè)計(jì)。 如何使用本書 計(jì)算機(jī)視覺與機(jī)器認(rèn)知的算法思想和建模過程涉及較復(fù)雜的數(shù)學(xué)理論體系。 本書各章節(jié)配套了 GUI程序,正是希望借助圖形用戶界面,讓讀者在最短的時(shí)間內(nèi)完成對(duì)各技術(shù)模塊算法框架的理解。 此外,計(jì)算機(jī)視覺與機(jī)器認(rèn)知屬于較大規(guī)模的編程,為確保讀者閱讀的完整性和連貫性,部分章節(jié)難免出現(xiàn)大段程序代碼。 考慮到這一特殊情況,我們盡可能對(duì)每一行代碼都添加了必要的注釋,在最大程度上提高讀者的閱讀效率。 北京航空航天大學(xué)出版社在本書扉頁也提供了二維碼,讀者可掃碼下載,輕松獲取這些代碼,并在短時(shí)間內(nèi)完成調(diào)試。 為了及時(shí)解答讀者閱讀過程中的疑難問題和滿足讀者進(jìn)一步的需求,本書作者還將聯(lián)合MATLAB中文論壇為廣大讀者提供優(yōu)質(zhì)配套資源及網(wǎng)絡(luò)互動(dòng)答疑服務(wù),我們會(huì)盡量每周登錄網(wǎng)站2~3次,集中解答讀者的疑難問題,并給出提示,根據(jù)讀者進(jìn)一步的需求,上傳和更新書籍輔助資源。 本書已在 MATLAB中文論壇申請(qǐng)和設(shè)立了專版,用于在線答疑和源碼分享: 書碼驗(yàn)證:http://wwwi.lovematlab.cn/book.php; 在線答疑:http://wwwi.lovematlab.cn/forum-258-1.html。 特 別 致 謝 在本書的編寫過程中,參考了 MATLAB 中文論壇大量的 MATLAB 幫助文檔、MATLAB書籍及其 他 相 關(guān) 資 源。 MATLAB 中 文 論 壇 注 冊(cè) 會(huì) 員 超 過 100 萬 人, 是 全 球 最 大 的MATLAB中文門戶。 MATLAB中文論壇不僅是 MATLAB編程類書籍的Facebook,而且也是 MATLAB開發(fā)商 MathWorks公司的戰(zhàn)略合作伙伴。 論壇運(yùn)營(yíng)已超過10年,采取線上、線下交流互助模式,培養(yǎng)了數(shù)百萬名 MATLAB愛好者。 本書所有作者正是在論壇開始接觸并逐漸喜愛上 MATLAB 的。 不 僅 如 此,論 壇 創(chuàng) 始 人 張 延 亮 作 為 MathWorks機(jī) 器 人 工 具 箱(RoboticsSystem Toolbox)首任產(chǎn)品負(fù)責(zé)人,親自擔(dān)任了本書的統(tǒng)審專家,做出了指導(dǎo)性的貢獻(xiàn)。 本書還得到了 MathWorks公司總部機(jī)器人產(chǎn)品部和市場(chǎng)部、松山湖國際機(jī)器人研究院、中國科學(xué)院新疆生態(tài)與地理研究所、新疆維吾爾自治區(qū)科技廳、中國科學(xué)院計(jì)算所煙臺(tái)分所、西北農(nóng)林科技大學(xué)等單位領(lǐng)導(dǎo)和同事的大力支持,在此對(duì)他們表示衷心的感謝。 本書寫作之初還得到了北京航空航天大學(xué)出版社陳守平編輯的鼓勵(lì)和支持,在此深表謝意。 感謝中國科學(xué)院西部之光項(xiàng)目(XBBS 2014 16)、國家千人計(jì)劃項(xiàng)目(Y474161)和深圳市基礎(chǔ)研究項(xiàng)目(JCYJ20150630114942260) 等的支持。 感謝我的授業(yè)恩師陳曦研究員,陳老師一直給予我正確的引導(dǎo)和前行的勇氣與力量! 本書在審校過程中還得到中國自動(dòng)化學(xué)會(huì)認(rèn)知計(jì)算與系統(tǒng)專委會(huì)、中國人工智能學(xué)會(huì)認(rèn)知系統(tǒng)與信息處理專委會(huì)的支持,在此一并致謝! 最后,必須感謝我的父母、妻子和所有家人的默默支持! 感謝女兒和即將出生的小寶貝,是你們賦予了我神奇的力量,讓爸爸突破了時(shí)間和精力的局限,最終完成這本書! 最后,感謝與我并肩作戰(zhàn)、共同撰寫此書的其他主編、副主編。 鄭重感謝我的團(tuán)隊(duì) CV-MATH,尤其是作為第三主編參與本書撰寫的 CV MATH 成員,感謝他們始終如一的支持與鼓勵(lì)! 值此書稿完成之際,我想說:你們都是好樣的! 非常榮幸能與你們一起工作! 由于時(shí)間倉促,加之作者水平和經(jīng)驗(yàn)有限,書中疏漏甚至錯(cuò)誤在所難免,希望廣大讀者批評(píng)指正,您的建議將是我們創(chuàng)作和研究的最大動(dòng)力與源泉。 王文峰 2017年6月 王文峰 中國科學(xué)院西部之光學(xué)者,中國自動(dòng)化學(xué)會(huì)認(rèn)知計(jì)算與系統(tǒng)專委會(huì)和中國人工智能學(xué)會(huì)認(rèn)知系統(tǒng)與信息處理專委會(huì)委員, CSIP 2016和ICISCE 2017委員,SCI期刊 PJOEs審稿專家,國家自然科學(xué)基金項(xiàng)目評(píng)審專家,CV- MATH 發(fā)起人。 阮俊虎 西北農(nóng)林科技大學(xué)香江學(xué)者,香港理工大學(xué)博士后;長(zhǎng)期從事數(shù)據(jù)挖掘、優(yōu)化理論的應(yīng)用研究,是有一定國際影響力的物聯(lián)網(wǎng)與大數(shù)據(jù)專家,曾受邀擔(dān)任多個(gè)SCI期刊的客座編委。 CV-MATH 由計(jì)算機(jī)視覺和數(shù)學(xué)研究者構(gòu)成的研究小組,作為第三主編的成員有(按姓氏拼音順序)何姣姣(昆明理工大學(xué))、劉帥奇(河北大學(xué))、馬海菲(廣東科技學(xué)院)、邵永勝(西安交通大學(xué))、王平 (南京航空航天大學(xué))、伍鵬(長(zhǎng)江大學(xué))、余維(湖北科技學(xué)院)、曾凡玉(電子科技大學(xué))、張鋒(電子科技大學(xué))、鄒輝(華僑大學(xué))。 劉衍琦 中國科學(xué)院計(jì)算所煙臺(tái)分所工程師,長(zhǎng)期從事大規(guī)模圖像/聲紋/視頻檢索及其大數(shù)據(jù)應(yīng)用,對(duì)以圖搜圖、圖文識(shí)別進(jìn)行過深入研究及應(yīng)用,曾主編和參編《MATLAB計(jì)算機(jī)視覺與深度學(xué)習(xí)實(shí)戰(zhàn)》《MATLAB圖像與視頻處理實(shí)用案例詳解》等。 郭裕蘭 國防科技大學(xué)電子科學(xué)學(xué)院教師,中國人工智能學(xué)會(huì)優(yōu)秀博士學(xué)位論文獲得者,研究方向?yàn)槿S視覺與模式識(shí)別;已在TPAMI和IJCV 等期刊及會(huì)議上發(fā)表學(xué)術(shù)論文50余篇,合作出版專著1部,擔(dān)任 TPAMI 等30余個(gè)國際期刊的審稿專家、AAAI等多個(gè)國際會(huì)議的程序委員會(huì)委員, 以及IEEE TPAMI期刊客座編輯。 王海洋 中國科學(xué)院計(jì)算所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室工程師,長(zhǎng)期從事數(shù)據(jù)采集、信息檢索、數(shù)據(jù)挖掘、情報(bào)分析等項(xiàng)目的架構(gòu)和實(shí)施,負(fù)責(zé)和參與天璣團(tuán)隊(duì)核心系統(tǒng)等戰(zhàn)略項(xiàng)目,開發(fā)的網(wǎng)絡(luò)信息采集軟件已被2000多家企業(yè)使用。 第1章 視頻圖像采集及讀取……………………………………………………………………1 1.1 視頻圖像采集 …………………………………………………………………………… 1 1.1.1 視頻生成技術(shù) ………………………………………………………………………… 1 1.1.2 智能采集技術(shù) ………………………………………………………………………… 1 1.2 視頻圖像讀取 …………………………………………………………………………… 8 1.2.1 視頻讀取函數(shù) ………………………………………………………………………… 8 1.2.2 圖像讀取函數(shù) ………………………………………………………………………… 10 1.2.3 視頻圖像轉(zhuǎn)換 ………………………………………………………………………… 23 第2章 視頻圖像變換及融合 ………………………………………………………………… 32 2.1 視頻圖像變換 …………………………………………………………………………… 32 2.1.1 平移變換 ……………………………………………………………………………… 32 2.1.2 鏡像變換 ……………………………………………………………………………… 34 2.1.3 裁剪操作 ……………………………………………………………………………… 36 2.1.4 縮放操作 ……………………………………………………………………………… 38 2.1.5 旋轉(zhuǎn)變換 ……………………………………………………………………………… 39 2.1.6 幾何變換 ……………………………………………………………………………… 40 2.1.7 鄰域操作 ……………………………………………………………………………… 42 2.2 視頻圖像融合 …………………………………………………………………………… 57 2.2.1 算法思想 ……………………………………………………………………………… 57 2.2.2 算法實(shí)例 ……………………………………………………………………………… 58 第3章 視頻圖像噪聲及處理 ………………………………………………………………… 63 3.1 算法基本思想 …………………………………………………………………………… 63 3.2 噪聲均值濾波 …………………………………………………………………………… 64 3.2.1 數(shù)學(xué)建模 ……………………………………………………………………………… 64 3.2.2 編程實(shí)現(xiàn) ……………………………………………………………………………… 65 3.3 噪聲中值濾波 …………………………………………………………………………… 65 3.3.1 數(shù)學(xué)建模 ……………………………………………………………………………… 65 3.3.2 編程實(shí)現(xiàn) ……………………………………………………………………………… 66 3.4 小波閾值濾波 …………………………………………………………………………… 67 3.4.1 算法思想 ……………………………………………………………………………… 67 3.4.2 數(shù)學(xué)建模 ……………………………………………………………………………… 68 3.4.3 編程實(shí)現(xiàn) ……………………………………………………………………………… 69 3.5 輪廓波變換 ……………………………………………………………………………… 70 3.5.1 算法設(shè)計(jì) ……………………………………………………………………………… 70 3.5.2 算法實(shí)現(xiàn) ……………………………………………………………………………… 72 3.5.3 代碼實(shí)例 ……………………………………………………………………………… 73 3.6 非局部均值濾波 ………………………………………………………………………… 75 3.6.1 算法設(shè)計(jì) ……………………………………………………………………………… 75 3.6.2 算法實(shí)現(xiàn) ……………………………………………………………………………… 77 第4章 視頻圖像閾值及分割 ………………………………………………………………… 93 4.1 圖像分割的基本概念 …………………………………………………………………… 93 4.1.1 圖像分割的定義 ……………………………………………………………………… 93 4.1.2 圖像分割算法分類 …………………………………………………………………… 94 4.2 邊緣檢測(cè) ………………………………………………………………………………… 94 4.2.1 邊緣檢測(cè)概述 ………………………………………………………………………… 94 4.2.2 邊緣檢測(cè)梯度算法 …………………………………………………………………… 95 4.2.3 拉普拉斯算子 ………………………………………………………………………… 97 4.2.4 LoG 算子 ……………………………………………………………………………… 98 4.2.5 Canny算子 ……………………………………………………………………… …… 99 4.3 閾值分割 ………………………………………………………………………… …… 101 4.3.1 閾值分割介紹 …………………………………………………………………………101 4.3.2 全局閾值分割 …………………………………………………………………………103 4.3.3 動(dòng)態(tài)閾值分割 …………………………………………………………………………109 4.4 區(qū)域生長(zhǎng)及分割 …………………………………………………………………… … 114 4.4.1 區(qū)域生長(zhǎng)的基本原理、步驟及流程圖……………………………………………… 114 4.4.2 生長(zhǎng)準(zhǔn)則和過程 ………………………………………………………………………115 4.4.3 區(qū)域分裂與合并 ………………………………………………………………………119 第5章 圖像特征計(jì)算及應(yīng)用………………………………………………………………… 123 5.1 Haar-like特征 ………………………………………………………………………… 123 5.1.1 Haar-like特征的種類 ……………………………………………………………… 123 5.1.2 Haar-like特征的計(jì)算 ……………………………………………………………… 124 5.1.3 Haar-like特征的個(gè)數(shù) ……………………………………………………………… 125 5.1.4 Haar-like特征人臉檢測(cè) …………………………………………………………… 125 5.2 Hog特征 ………………………………………………………………………… …… 128 5.2.1 圖像的預(yù)處理 …………………………………………………………………………128 5.2.2 圖像的梯度…………………………………………………………………………… 128 5.2.3 圖像的滑動(dòng)…………………………………………………………………………… 129 5.2.4 Hog特征行人檢測(cè) …………………………………………………………………… 129 5.3 LBP特征 ……………………………………………………………………………… 132 5.3.1 LBP特征的演化 ……………………………………………………………………… 132 5.3.2 LBP特征紋理分類 …………………………………………………………………… 134 5.4 SIFT 特征 ……………………………………………………………………………… 142 5.4.1 SIFT 算法的特點(diǎn) …………………………………………………………………… 142 5.4.2 SIFT 算法設(shè)計(jì)框架 ………………………………………………………………… 143 5.4.3 SIFT 算法設(shè)計(jì)過程 ………………………………………………………………… 143 5.4.4 SIFT 特征模板匹配 ………………………………………………………………… 150 第6章 運(yùn)動(dòng)目標(biāo)檢測(cè)及跟蹤………………………………………………………………… 156 6.1 算法設(shè)計(jì)思想 ………………………………………………………………………… 156 6.2 數(shù)學(xué)建模過程 ………………………………………………………………………… 157 6.2.1 幀間差分法建模 ………………………………………………………………………157 6.2.2 幀間差分法改進(jìn) ………………………………………………………………………158 6.3 算法編程實(shí)現(xiàn) ………………………………………………………………………… 158 6.3.1 幀間差分法…………………………………………………………………………… 158 6.3.2 改進(jìn)的幀間差分法 ……………………………………………………………………161 6.4 算法拓展與優(yōu)化 ……………………………………………………………………… 165 6.4.1 特殊問題與算法 ………………………………………………………………………165 6.4.2 MATLAB編程實(shí)現(xiàn) ………………………………………………………………… 166 第7章 目標(biāo)定位及字符識(shí)別………………………………………………………………… 188 7.1 圖像目標(biāo)提取與識(shí)別 ………………………………………………………………… 188 7.1.1 圖像采集與目標(biāo)檢測(cè) ………………………………………………………………… 189 7.1.2 圖像目標(biāo)歸一化處理 ………………………………………………………………… 194 7.1.3 圖像字符提取與識(shí)別 ………………………………………………………………… 197 7.2 視頻識(shí)別與軌跡分析 ………………………………………………………………… 203 7.2.1 問題描述與建模思想 ………………………………………………………………… 204 7.2.2 算法功能與技術(shù)流程 ………………………………………………………………… 204 7.2.3 MATLAB核心代碼 ………………………………………………………………… 204 第8章 機(jī)器故障認(rèn)知及檢測(cè)………………………………………………………………… 211 8.1 問題描述與建模思想 ………………………………………………………………… 211 8.2 分析過程與編程實(shí)現(xiàn) ………………………………………………………………… 214 8.2.1 齒輪振動(dòng)信號(hào)的數(shù)字濾波處理 ……………………………………………………… 214 8.2.2 齒輪振動(dòng)信號(hào)的頻譜分析 …………………………………………………………… 226 8.2.3 波形分析中常用的指標(biāo)計(jì)算……………………………………………………………232 8.2.4 齒輪振動(dòng)信號(hào)的相關(guān)分析 …………………………………………………………… 235 第9章 深度學(xué)習(xí)及人臉識(shí)別………………………………………………………………… 243 9.1 算法形成背景 ………………………………………………………………………… 243 9.2 算法基本思想 ………………………………………………………………………… 243 9.3 算法數(shù)學(xué)原理 ………………………………………………………………………… 244 9.3.1 權(quán)值共享 …………………………………………………………………………… 244 9.3.2 CNN 結(jié)構(gòu) …………………………………………………………………………… 245 9.3.3 算法設(shè)計(jì)框架 ………………………………………………………………………… 246 9.3.4 混合編程思想 ………………………………………………………………………… 249 9.3.5 算法應(yīng)用詳解 ………………………………………………………………………… 249 9.4 基于深度學(xué)習(xí)的人臉識(shí)別 …………………………………………………………… 266 參考文獻(xiàn)…………………………………………………………………………………………276
你還可能感興趣
我要評(píng)論
|