這是一部從技術(shù)原理、算法和工程實(shí)踐3個(gè)維度系統(tǒng)講解圖像識別的著作,由阿里巴巴達(dá)摩院算法專家、阿里巴巴技術(shù)發(fā)展專家、阿里巴巴數(shù)據(jù)架構(gòu)師聯(lián)合撰寫。
在知識點(diǎn)的選擇上,本書廣度和深度兼顧,既能讓完全沒有基礎(chǔ)的讀者迅速入門,又能讓有基礎(chǔ)的讀者深入掌握圖像識別的核心技術(shù);在寫作方式上,本書避開了復(fù)雜的數(shù)學(xué)公式及其推導(dǎo),從問題的前因后果 、創(chuàng)造者的思考過程,利用簡單的數(shù)學(xué)計(jì)算來做模型分析和講解,通俗易懂。更重要的書,本書不僅僅是聚焦于技術(shù),而是將重點(diǎn)放在了如何用技術(shù)解決實(shí)際的業(yè)務(wù)問題。
全書一共13章:
第1-2章主要介紹了圖像識別的應(yīng)用場景、工具和工作環(huán)境的搭建;
第3-6章詳細(xì)講解了圖像分類算法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、誤差反向傳播等圖像識別的基礎(chǔ)技術(shù)及其原理;
第7章講解了如何利用PyTorch來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的圖像分類,專注于實(shí)操,是從基礎(chǔ)向高階的過渡;
第8-12章深入講解了圖像識別的核心技術(shù)及其原理,包括卷積神經(jīng)網(wǎng)絡(luò)、目標(biāo)檢測、分割、產(chǎn)生式模型、神經(jīng)網(wǎng)絡(luò)可視化等主題;
第13章從工程實(shí)踐的角度講解了圖像識別算法的部署模式。
購買本書的讀者請?jiān)趆ttp://www.hzcourse.com/web/refbook/detail/8376/226下載源代碼
為什么要寫這本書
隨著深度學(xué)習(xí)技術(shù)的發(fā)展、計(jì)算能力的提升和視覺數(shù)據(jù)的增長,視覺智能計(jì)算技術(shù)在許多應(yīng)用領(lǐng)域如拍照搜索、智能相冊、人臉閘機(jī)、城市智能交通管理、智慧醫(yī)療等都取得了令人矚目的成績。因此越來越多的人開始對機(jī)器視覺感興趣,并開始從事這個(gè)行業(yè)。就圖像識別領(lǐng)域來說,運(yùn)行一個(gè)開源的代碼并不是什么難事,但搞懂其中的原理確實(shí)會稍有些難度。因此本書在每章中都會用相對通俗的語言來介紹算法的背景和原理,并會在讀者似懂非懂時(shí)給出實(shí)戰(zhàn)案例。實(shí)戰(zhàn)案例的代碼已全部在線下運(yùn)行通過,代碼并不復(fù)雜,可以很好地幫助讀者理解其中的細(xì)節(jié),希望讀者在學(xué)習(xí)理論之后可以親自動(dòng)手實(shí)踐。圖像識別的理論和實(shí)踐是相輔相成的,希望本書可以帶領(lǐng)讀者走進(jìn)圖像識別的世界。
本書從章節(jié)規(guī)劃到具體的講述方式,具有以下兩個(gè)特點(diǎn):
第一個(gè)特點(diǎn)是本書的主要目標(biāo)讀者定位為高校相關(guān)專業(yè)的本科生(統(tǒng)計(jì)學(xué)、計(jì)算機(jī)技術(shù))、圖像識別愛好者,以及不具備專業(yè)數(shù)學(xué)知識的人群。圖像識別是一系列學(xué)科的集合體,它以機(jī)器學(xué)習(xí)、模式識別等知識為基礎(chǔ),因此依賴很多數(shù)學(xué)知識。本書盡量繞開復(fù)雜的數(shù)學(xué)證明和推導(dǎo),從問題的前因后果、創(chuàng)造者思考的過程和簡單的數(shù)學(xué)計(jì)算的角度來做模型的分析和講解,目的是以更通俗易懂的方式帶領(lǐng)讀者入門。另外,在第8~12章的后面都附有參考文獻(xiàn),想要深入了解的讀者可以繼續(xù)閱讀。
第二個(gè)特點(diǎn)是本書在每章后面都附有實(shí)戰(zhàn)案例,讀者可以結(jié)合案例學(xué)習(xí),通過實(shí)踐驗(yàn)證自己想法的價(jià)值。在本書的內(nèi)容編排上,遵循知識點(diǎn)背景介紹原理剖析實(shí)戰(zhàn)案例的介紹方式,同時(shí)所有的代碼會在書中詳細(xì)列出或者上傳到GitHub,以方便讀者下載與調(diào)試,幫助讀者快速掌握知識點(diǎn),快速上手,而且這些代碼也可以應(yīng)用到后續(xù)實(shí)際的開發(fā)項(xiàng)目中。在實(shí)際項(xiàng)目章節(jié)中,選取目前在圖像識別領(lǐng)域中比較熱門的項(xiàng)目,對之前的知識點(diǎn)進(jìn)行匯總,幫助讀者鞏固與提升。
讀者對象
統(tǒng)計(jì)學(xué)或相關(guān)IT專業(yè)學(xué)生
本書的初衷是面向相關(guān)專業(yè)的學(xué)生擁有大量基于理論知識的認(rèn)知卻缺乏實(shí)戰(zhàn)經(jīng)驗(yàn)的人員,讓其在理論的基礎(chǔ)上深入了解。通過本書,學(xué)生可以跟隨本書的教程一起操作學(xué)習(xí),達(dá)到對自己使用的人工智能工具、算法和技術(shù)知其然亦知其所以然的目的。
信息科學(xué)和計(jì)算機(jī)科學(xué)愛好者
本書是一本近現(xiàn)代科技的歷史書,也是一本科普書,還是一本人工智能思想和技術(shù)的教科書。通過本書可以了解人工智能領(lǐng)域的前輩們在探索的道路上做出的努力和思考,理解他們不同的觀點(diǎn)和思路,有助于開拓自己的思維和視野。
人工智能相關(guān)專業(yè)的研究人員
本書詳細(xì)介紹了圖像識別的相關(guān)知識。通過本書可以了解其理論知識,了解哪些才是項(xiàng)目所需的內(nèi)容以及如何在項(xiàng)目中實(shí)現(xiàn),能夠快速上手。
如何閱讀本書
本書從以下幾個(gè)方面闡述圖像識別:
第1章介紹圖像識別的一些應(yīng)用場景,讓讀者對圖像識別有個(gè)初步的認(rèn)識。
第2章主要對圖像識別的工程背景做簡單介紹,同時(shí)介紹了本書后續(xù)章節(jié)實(shí)戰(zhàn)案例中會用到的環(huán)境,因此該章是實(shí)戰(zhàn)的基礎(chǔ)。
第3~6章是圖像識別的技術(shù)基礎(chǔ),包括機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。該部分的代碼主要使用Python實(shí)現(xiàn)。沒有機(jī)器學(xué)習(xí)基礎(chǔ)的同學(xué)需要理解這幾章之后再往下看,有機(jī)器學(xué)習(xí)基礎(chǔ)的同學(xué)可以有選擇地學(xué)習(xí)。
第7章是一個(gè)過渡章節(jié),雖然第6章中手動(dòng)用Python實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò),但由于本書后面的圖像識別部分主要使用PyTorch實(shí)現(xiàn),因此使用該章作為過渡,介紹如何使用PyTorch來搭建神經(jīng)網(wǎng)絡(luò)。
第8~12章為圖像識別的核心。第8章首先介紹了圖像中的卷積神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)的異同,并給出了常見的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。接下來的第9~12章分別介紹了圖像識別中的檢測、分割、產(chǎn)生式模型以及可視化的問題,并在每章后面給出相應(yīng)的實(shí)戰(zhàn)案例。
第13章簡單介紹了圖像識別的工業(yè)部署模式,以幫助讀者構(gòu)建一個(gè)更完整的知識體系。
第8~12章包含參考文獻(xiàn),主要是本書中介紹的一些方法,或者本書中提到但是沒有深入說明的方法,感興趣的讀者可以自行查詢學(xué)習(xí)。
關(guān)于附件的使用方法:除了第1章外,本書的每一章都有對應(yīng)的源數(shù)據(jù)和完整代碼,這些內(nèi)容可在本書中直接找到,有些代碼需要從GitHub中下載,地址為http://www.hzcourse.com/web/refbook/detail/8376/226。需要注意的是,為了讓讀者更好地了解每行代碼的含義,在注釋信息中使用了中文標(biāo)注,每個(gè)程序文件的編碼格式都是UTF-8。
勘誤和支持
由于本書的作者水平及撰稿時(shí)間有限,書中難免會出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請讀者批評指正。讀者可通過發(fā)送電子郵件到weixihan1@163.com和kenny_tm@hotmail.com聯(lián)系并反饋建議或意見。
致謝
首先非常感謝我的家人,由于業(yè)余時(shí)間常常被工作擠占,本書的撰寫又用了所剩不多的業(yè)余時(shí)間,因此少了很多陪伴家人的時(shí)間,感謝他們的理解、支持和鼓勵(lì)。
撰寫一本書,將自己的知識重新梳理后分享給讀者,在技術(shù)發(fā)展的道路上幫助到其他人,這件事情是非常有價(jià)值的,因此也非常感謝兩位合著者涂銘、張修鵬。
感謝機(jī)械工業(yè)出版社華章公司的楊福川老師,以及全程參與審核、校驗(yàn)等工作的張錫鵬、孫海亮老師等出版工作者,是他們的辛勤付出才能保證本書順利面世。
感謝我身邊的朋友、同事、同學(xué),感謝一路走來你們的支持、鼓勵(lì)和幫助。
謹(jǐn)以此書獻(xiàn)給熱愛算法并為之奮斗的朋友們,愿大家身體健康、生活美滿、事業(yè)有成!
魏溪含
書籍初成,感慨良多。
在接受邀請撰寫該書時(shí),從未想到過程如此艱辛與波折。這里需要感謝一路陪我走來的所有人。
感謝我的家人的理解和支持,陪伴我度過寫作本書的漫長歲月。
感謝我的合寫者魏溪含和張修鵬,與他們合作輕松愉快,他們給予我很多的理解和包容。
感謝參與審閱、校驗(yàn)等工作的楊福川老師以及其他老師,是他們在幕后的辛勤付出保證了本書的成功出版。
另外在本書的寫作期間,有很多專業(yè)領(lǐng)域的內(nèi)容都得到了各個(gè)領(lǐng)域?qū)<业闹笇?dǎo)甚至親筆編著。這里需要特別感謝阿里云計(jì)算公司產(chǎn)品方面的專家李駿,編寫了第13章全部內(nèi)容,感謝他在產(chǎn)品和技術(shù)上利用其豐富的行業(yè)經(jīng)驗(yàn)為本書留下的寶貴財(cái)富。
再次感謝大家!
涂 銘
首先要感謝我的妻子金暉,我能在工作繁忙的情況下參與此書的編寫,離不開她的付出和支持,感謝我的寶貝張正延,給了我無窮的動(dòng)力,感謝我的父親、母親,永遠(yuǎn)深愛你們。
感謝魏溪含和涂銘!魏溪含在書中貢獻(xiàn)了她圖像識別領(lǐng)域多年的經(jīng)驗(yàn),涂銘為此書的出版付出了最多的心血。
這本書是友誼和工作成果的結(jié)晶,本書作為我們并肩奮斗的見證,希望能將我們實(shí)踐經(jīng)驗(yàn)沉淀成的知識,幫助到更多希望了解和學(xué)習(xí)深度學(xué)習(xí)與圖像識別的讀者。
感謝楊福川等機(jī)械工業(yè)出版社的老師們,他們在幕后的付出和支持,是本書得以出版的保障。
最后感謝這些年一路走來幫助過我的親人、老師、朋友、同事、同學(xué),始終滿懷感恩!
張修鵬