本書著眼于人工智能自身的安全問題,旨在將當前人工智能安全的基礎問題、關鍵問題、核心算法進行歸納總結。本書的定位是學習人工智能安全的入門書籍,因此先詳細介紹了人工智能安全相關的基礎知識,包括相關的基礎算法和安全模型,使得讀者明確人工智能面臨的威脅,對人工智能安全有一個大體的概念和初步認識。然后將人工智能系統(tǒng)的主要安全威脅分為模型安全性威脅和模型與數(shù)據(jù)隱私威脅兩大類。模型安全性威脅主要包括投毒攻擊、后門攻擊、對抗攻擊、深度偽造。模型與數(shù)據(jù)隱私威脅主要包括竊取模型的權重、結構、決策邊界等模型本身信息和訓練數(shù)據(jù)集信息。本書在介紹上述經典攻擊技術的同時,也介紹了相應的防御方法,使得讀者通過這些攻擊了解人工智能模型的脆弱性,并對如何防御攻擊的方法、如何增強人工智能模型的魯棒性有一定的思考。本書主要從隱私保護的基本概念、數(shù)據(jù)隱私、模型竊取與防御三個維度來介紹通用的隱私保護定義與技術、典型的機器學習數(shù)據(jù)隱私攻擊方式和相應的防御手段,并探討了模型竊取攻擊及其對應的防御方法,使得讀者能夠直觀全面地了解模型與數(shù)據(jù)隱私并掌握一些經典算法的整體實現(xiàn)流程。這本書還介紹了真實世界場景中不同傳感器下的對抗攻擊和相應的防御措施以及人工智能系統(tǒng)對抗博弈的現(xiàn)狀。相比于數(shù)字世界的攻擊,真實世界的攻擊更需要引起人們的關注,一旦犯罪分子惡意利用人工智能系統(tǒng)的漏洞,將會給人們的生產生活帶來安全威脅,影響大家的人身安全、財產安全還有個人隱私。讀者可以通過閱讀此書的知識內容及相關經典案例了解掌握人工智能系統(tǒng)面臨的攻防技術,了解如何在前人的基礎上,研究出針對各種攻擊的防御方法,為可信人工智能助力。本書適合期望入門人工智能安全的計算機相關專業(yè)的學生、技術工作者,人工智能領域的從業(yè)人員,對人工智能安全感興趣的人員,致力于建設可信人工智能的人員,本書所涉及的內容可以幫助讀者快速全面地了解人工智能安全所涉及的問題及技術,了解相關攻防技術算法的基本原理,可幫助人工智能領域的開發(fā)人員做出更安全的應用產品。
近年來,以深度神經網(wǎng)絡為代表的人工智能技術飛速發(fā)展,在越來越多任務中的表現(xiàn)超過了人類智力水平。在金融、教育、醫(yī)療、軍事、工業(yè)制造、社會服務等多個領域,人工智能技術的應用不斷深化和成熟。然而,隨著人工智能與社會生活的高度融合,人工智能系統(tǒng)自身暴露出眾多的安全問題,引起了社會的廣泛關注。
相對于人工智能賦能于網(wǎng)絡安全領域,人工智能自身的安全是一個新穎而有趣的領域,其主要研究方向可以分為攻擊和防御兩個層面。近年來不斷涌現(xiàn)出針對人工智能系統(tǒng)的新型安全攻擊,如對抗攻擊、投毒攻擊、后門攻擊、偽造攻擊、模型竊取攻擊、成員推理攻擊等。這些攻擊損害了人工智能算法和數(shù)據(jù)的機密性、完整性、可用性,受到學術界和工業(yè)界的廣泛關注。人工智能系統(tǒng)面對的安全威脅主要分為模型安全性、模型與數(shù)據(jù)隱私兩大類。
模型安全性指的是人工智能模型在全生命周期所面臨的安全威脅,包括人工智能模型在訓練與推理階段可能遭受潛在的攻擊者對模型功能的破壞,以及由人工智能自身魯棒性欠缺引起的危險。對抗攻擊通過在模型的輸入中加入精心構造的噪聲,使模型輸出出現(xiàn)錯誤,其本質是利用了模型決策邊界與真實邊界不一致的脆弱性。例如,在交通指示牌上貼上特殊的小貼紙,可以使自動駕駛汽車錯誤地將其識別為轉向標志。投毒攻擊通過篡改訓練數(shù)據(jù)來改變模型行為和降低模型性能。例如微軟的一款與Twitter用戶交談的聊天機器人Tay,在受到投毒攻擊后做出與種族主義相關的評論,從而被關閉。后門攻擊是指人工智能模型對于某些特殊的輸入(觸發(fā)器)會產生錯誤的輸出,對于干凈的輸入則產生預期的正確輸出。便如,在手寫數(shù)字識別中,后門模型能準確識別出圖像中的數(shù)字0~9,但當數(shù)字7的右下角加入一個圓圈時,后門模型將其識別為1。偽造攻擊包括視頻偽造、聲音偽造、文本偽造和微表情合成等。生成的假視頻和音頻數(shù)據(jù)可以達到以假亂真的程度,沖擊人們“眼見為實”的傳統(tǒng)認知。
模型與數(shù)據(jù)隱私指的是人工智能模型自身的模型參數(shù)及訓練數(shù)據(jù)的隱私性。深度學習模型使用過程中產生的相關中間數(shù)據(jù),包括輸出向量、模型參數(shù)、模型梯度等,甚至模型對于正常輸入的查詢結果,都可能會泄露模型參數(shù)及訓練數(shù)據(jù)等敏感信息。模型竊取攻擊是指攻擊者試圖通過訪問模型的輸入和輸出,在沒有訓練數(shù)據(jù)和算法的先驗知識的情況下,復制機器學習模型。成員推理攻擊是指攻擊者可以根據(jù)模型的輸出判斷一個具體的數(shù)據(jù)是否存在于訓練集中。
攻擊和防御是“矛”與“盾”的關系,二者相輔相成,互相博弈,共同進步。針對上述攻擊,也提出了相應的防御方法。整體上來看,針對人工智能模型的攻擊及防御的研究,在特定的應用場景下展現(xiàn)出不錯的效果,但對現(xiàn)有人工智能系統(tǒng)造成嚴重威脅的通用性攻擊方法,能夠對抗多種攻擊手段和自動化部署的防御方法還處于探索之中。另外,人工智能自身還欠缺較好的可解釋性,人工智能模型的攻防研究更多地集中在實驗 的層次上,具備可解釋性的攻擊與防御方法是學術界未來研究的重點和熱點。
本書著眼于人工智能自身的安全問題,旨在對當前人工智能安全的基本問題、關鍵問題、核心算法進行歸納總結。本書的定位是關于人工智能安全的入門書籍,因此先詳細介紹了人工智能安全相關的基礎知識,包括相關的基本算法和安全模型,以便讀者明確人工智能面臨的威脅,對人工智能安全有一個初步認識。然后,本書將人工智能系統(tǒng)的主要安全威脅分為模型安全性威脅和模型與數(shù)據(jù)隱私威脅兩大類。模型安全性威脅主要包括投毒攻擊、后門攻擊、對抗攻擊、深度偽造攻擊。模型與數(shù)據(jù)隱私威脅主要包括竊取模型的權重、結構、決策邊界等模型本身信息和訓練數(shù)據(jù)集信息。
本書在介紹經典攻擊技術的同時,也介紹了相應的防御方法,使得讀者通過攻擊了解人工智能模型的脆弱性,并對如何防御攻擊、如何增強人工智能模型的魯棒性有一定的思考。本書主要從隱私保護的基本概念、數(shù)據(jù)隱私、模型竊取與防御三個維度來介紹通用的隱私保護定義與技術、典型的機器學習數(shù)據(jù)隱私攻擊方式和相應的防御手段,并探討了模型竊取攻擊及其對應的防御方法,使得讀者能夠直觀全面地了解模型與數(shù)據(jù)隱私并掌握一些經典算法的實現(xiàn)流程。本書還介紹了真實世界場景中不同傳感器下的對抗攻擊和相應的防御措施,以及人工智能系統(tǒng)對抗博弈的現(xiàn)狀。相比于數(shù)字世界的攻擊,真實世界的攻擊更需要引起人們的關注,一旦犯罪分子惡意利用人工智能系統(tǒng)的漏洞,將會給人們的生產生活帶來安全威脅,影響人身安全、財產安全和個人隱私。例如,罪犯利用對抗樣本來攻擊人臉識別系統(tǒng),使得警察無法對其進行監(jiān)視追蹤;不法分子通過深度偽造將名人或政客的臉替換到不良圖片或視頻中,造成不良的影響。讀者可以通過閱讀本書,了解人工智能系統(tǒng)相關的攻防技術,從而研究出針對各種攻擊的更可行的防御方法,為可信人工智能助力。
本書適合希望了解人工智能安全的計算機相關專業(yè)的學生、人工智能領域的從業(yè)人員、對人工智能安全感興趣的人員,以及致力于建設可信人工智能的人員閱讀,幫助讀者快速全面地了解人工智能安全所涉及的問題及技術。而了解相關攻防技術的基本原理,有助于人工智能領域的開發(fā)人員做出更安全的應用產品。
推薦序
前言
第一部分基礎知識
第1章人工智能概述2
11人工智能發(fā)展現(xiàn)狀2
111跌跌撞撞的發(fā)展史2
112充滿誘惑與希望的現(xiàn)狀3
113百家爭鳴的技術生態(tài)圈4
114像人一樣行動:通過圖靈測試
就足夠了嗎5
115像人一樣思考:一定需要具備
意識嗎7
116合理地思考:一定需要具備邏輯
思維嗎8
117合理地行動:能帶領我們走得
更遠嗎9
12人工智能安全現(xiàn)狀 12
121模型安全性現(xiàn)狀13
122模型與數(shù)據(jù)隱私現(xiàn)狀14
123人工智能安全法規(guī)現(xiàn)狀15
第2章人工智能基本算法16
21基本概念16
22經典算法17
221支持向量機17
222隨機森林22
223邏輯回歸25
224K近鄰27
225神經網(wǎng)絡28
226卷積神經網(wǎng)絡31
227強化學習36
23主流算法43
231生成對抗網(wǎng)絡43
232聯(lián)邦學習45
233在線學習49
24算法可解釋性51
241可解釋性問題52
242事前可解釋52
243事后可解釋53
244可解釋性與安全性分析56
25基礎算法實現(xiàn)案例56
26小結57
第3章人工智能安全模型58
31人工智能安全定義58
311人工智能技術組成58
312人工智能安全模型概述59
32人工智能安全問題60
321數(shù)據(jù)安全問題60
322算法安全問題60
323模型安全問題61
33威脅模型和常見攻擊62
331威脅模型63
332常見攻擊65
34模型竊取攻擊與防御實現(xiàn)
案例77
35小結77
第二部分模型安全性
第4章投毒攻擊與防御80
41投毒攻擊80
411針對傳統(tǒng)機器學習模型的投毒
攻擊81
412深度神經網(wǎng)絡中的投毒攻擊84
413強化學習中的投毒攻擊89
414針對其他系統(tǒng)的投毒攻擊89
42針對投毒攻擊的防御方法90
421魯棒學習91
422數(shù)據(jù)清洗92
423模型防御93
424輸出防御93
43投毒攻擊實現(xiàn)案例94
44小結94
第5章后門攻擊與防御95
51后門攻擊與防御概述95
511攻擊場景97
512機器學習生命周期中的后門
攻擊97
513后門攻擊相關定義98
514威脅模型99
52圖像后門攻擊100
521早期后門攻擊100
522基于觸發(fā)器優(yōu)化的后門
攻擊102
523面向觸發(fā)器隱蔽性的后門
攻擊104
524“干凈標簽”條件下的后門
攻擊109
525其他后門攻擊方法112
53圖像后門防御113
531基于數(shù)據(jù)預處理的防御
方法114
532基于模型重建的防御方法114
533基于觸發(fā)器生成的防御方法115
534基于模型診斷的防御方法116
535基于投毒抑制的防御方法117
536基于訓練樣本過濾的防御
方法117
537基于測試樣本過濾的防御
方法117
538認證的防御方法118
54其他場景下的后門模型118
55后門攻擊和其他方法的關系119
551與對抗樣本攻擊的關系119
552與投毒攻擊的關系120
56后門攻擊與防御實現(xiàn)案例120
57小結121
第6章對抗攻擊與防御122
61對抗攻擊與防御概述122
62圖像對抗樣本生成技術123
621基于梯度的對抗樣本生成124
622基于優(yōu)化的對抗樣本生成126
623基于梯度估計的對抗樣本
生成128
624基于決策的對抗樣本生成130
63圖像對抗樣本防御131
631輸入層面的防御方法131
632模型層面的防御方法134
633可驗證的防御方法138
634其他防御方法139
64文本對抗樣本生成與防御140
641文本對抗樣本生成140
642文本對抗樣本防御150
65其他數(shù)字對抗樣本155
651圖對抗樣本155
652惡意軟件檢測模型中的對抗
樣本162
66對抗攻擊與防御實現(xiàn)
案例168
67小結169
第7章深度偽造攻擊與防御170
71深度偽造攻擊與防御概述170
72深度偽造人臉生成171
721人臉合成171
722身份交換172
723面部屬性操作175
724面部表情操作176
73深度偽造人臉檢測176
731基于幀內差異的檢測方法177
732基于幀間差異的檢測方法180
74深度偽造語音生成與檢測182
741深度偽造語音生成182
742深度偽造語音檢測185
75深度偽造攻擊與防御實現(xiàn)
案例186
76小結187
第三部分模型與數(shù)據(jù)隱私
第8章隱私保護基本概念190
81隱私保護概述190
82安全多方計算191
821安全多方計算的基本概念191
822基于混淆電路的安全多方
計算193