avav588con,最近2019中文免费字幕在线观看,欧美一道本一区二区三区,九九热在线观看,经典好看免费AV

移動(dòng)版

當(dāng)前位置:智慧城市網(wǎng)資訊中心品牌專欄

新發(fā)產(chǎn)品更多
綠盟科技:大模型安全風(fēng)險(xiǎn)與防護(hù)策略
2023年10月05日 09:42:28來(lái)源:綠盟科技點(diǎn)擊量:37197
導(dǎo)讀本文為《安全行業(yè)大模型 SecLLM技術(shù)白皮書(shū)》解讀,對(duì)大模型安全風(fēng)險(xiǎn)和大模型防護(hù)策略技術(shù)進(jìn)行了介紹。
  【智慧城市網(wǎng) 品牌專欄】隨著大模型能力的不斷增強(qiáng)和適用范圍的延伸,大模型中存在的微小安全隱患會(huì)造成巨大損害,大模型安全問(wèn)題引起了廣泛關(guān)注,各界對(duì)大模型潛在的安全風(fēng)險(xiǎn)、可能引起的道德倫理問(wèn)題十分重視,當(dāng)前全球各國(guó)監(jiān)管機(jī)構(gòu)已開(kāi)始積極介入AI監(jiān)管。
 
  9月1日,綠盟科技正式發(fā)布綠盟風(fēng)云衛(wèi)大模型(NSFGPT),同期推出《安全行業(yè)大模型 SecLLM技術(shù)白皮書(shū)》,分享其在安全行業(yè)大模型研發(fā)過(guò)程中所積累的最佳實(shí)踐與經(jīng)驗(yàn)教訓(xùn),以期為安全行業(yè)提供“量身定制”的大模型解決方案。
 
  本文為《安全行業(yè)大模型 SecLLM技術(shù)白皮書(shū)》解讀,對(duì)大模型安全風(fēng)險(xiǎn)和大模型防護(hù)策略技術(shù)進(jìn)行了介紹。
 
  一、大模型安全總覽
 
  與傳統(tǒng)的端到端模型不同,大模型采用預(yù)訓(xùn)練-微調(diào)的訓(xùn)練范式,首先在大量的未標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,繼而在下游任務(wù)的標(biāo)注數(shù)據(jù)上微調(diào)得到垂直領(lǐng)域模型。一般認(rèn)為,模型的訓(xùn)練過(guò)程、結(jié)構(gòu)越復(fù)雜,其面臨安全風(fēng)險(xiǎn)系數(shù)就越高,但不能以此簡(jiǎn)單地判斷大模型較傳統(tǒng)模型面臨的安全威脅更嚴(yán)重。同質(zhì)化、多模態(tài)對(duì)齊等因素會(huì)導(dǎo)致大模型面臨更多類型的安全威脅,但由于大模型具備海量參數(shù)、微調(diào)所需的敏感數(shù)據(jù)更少的特點(diǎn),也一定程度上緩解了大模型遭受對(duì)抗樣本、數(shù)據(jù)隱私泄露的風(fēng)險(xiǎn)。
 
  大模型內(nèi)外面臨多重安全威脅。對(duì)內(nèi)來(lái)講,大模型參數(shù)量劇增帶來(lái)的涌現(xiàn)能力也引發(fā)了新的偏見(jiàn)和不確定風(fēng)險(xiǎn);多模態(tài)學(xué)習(xí)增加了對(duì)齊風(fēng)險(xiǎn);大模型內(nèi)部存在可解釋性不足風(fēng)險(xiǎn);而基礎(chǔ)模型缺陷在下游模型上的繼承效應(yīng)也需要有對(duì)應(yīng)的緩解策略。對(duì)外而言,大模型則面臨著來(lái)自惡意攻擊者的對(duì)抗攻擊、后門(mén)攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數(shù)據(jù)的威脅。大模型在生命周期中面臨的安全風(fēng)險(xiǎn)如下圖所示:
 
  ① 針對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)集的攻擊,如投毒攻擊。
 
  相較于傳統(tǒng)端到端的模型,該數(shù)據(jù)集中的數(shù)據(jù)類型眾多,涵蓋圖像、文本、語(yǔ)音、代碼等多種數(shù)據(jù),且來(lái)源于網(wǎng)頁(yè)、書(shū)籍、社交平臺(tái)等未經(jīng)驗(yàn)證的多種公開(kāi)渠道,因此投毒攻擊的風(fēng)險(xiǎn)更高。另外,多模態(tài)數(shù)據(jù)之間的對(duì)齊問(wèn)題會(huì)影響到基礎(chǔ)模型的預(yù)測(cè)準(zhǔn)確率。
 
  ② 基礎(chǔ)模型的安全性會(huì)影響到下游模型的安全性。
 
  基礎(chǔ)模型的脆弱性會(huì)被下游模型繼承,基礎(chǔ)模型魯棒也會(huì)使下游模型更可靠;基礎(chǔ)模型如果對(duì)部分訓(xùn)練數(shù)據(jù)進(jìn)行了“記憶”,則下游模型也面臨相同的風(fēng)險(xiǎn)。由于微調(diào)所需的敏感數(shù)據(jù)較傳統(tǒng)端到端模型會(huì)更少,這一點(diǎn)能夠降低數(shù)據(jù)隱私泄露風(fēng)險(xiǎn)。另外,基礎(chǔ)模型同質(zhì)化的特點(diǎn)會(huì)進(jìn)一步擴(kuò)大基礎(chǔ)模型安全性的影響。
 
  ③ 微調(diào)使用的數(shù)據(jù)集存在安全風(fēng)險(xiǎn)。
 
  同樣地,數(shù)據(jù)來(lái)源的可靠性會(huì)影響到模型質(zhì)量,數(shù)據(jù)集也存在隱私泄露風(fēng)險(xiǎn)。
 
  ④ 模型推理階段存在的安全風(fēng)險(xiǎn)。
 
  在推理階段,攻擊者一般通過(guò)API接口訪問(wèn)黑盒大模型,大模型面臨著對(duì)抗樣本、模型竊取、成員推斷攻擊、提示注入等多重威脅。
 
  下文將從大模型安全風(fēng)險(xiǎn)和大模型防御策略兩個(gè)角度進(jìn)行介紹。
 
  二、大模型安全風(fēng)險(xiǎn)
 
  本節(jié)描述大模型在生命周期中可能遭受的攻擊類型,這些攻擊對(duì)大模型的完整性、隱私性、可用性造成威脅,影響大模型的表現(xiàn)和性能。
 
  后門(mén)攻擊
 
  后門(mén)攻擊(Backdoor Attack)是大模型不可忽視的安全威脅之一,在預(yù)訓(xùn)練和微調(diào)階段大模型都存在后門(mén)植入的風(fēng)險(xiǎn)。大模型訓(xùn)練所使用的互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)中可能存在投毒樣本,公開(kāi)的預(yù)訓(xùn)練模型也可能是后門(mén)模型。而當(dāng)基礎(chǔ)模型被植入后門(mén)并被用于下游任務(wù)時(shí),模型的脆弱性會(huì)被下游模型繼承,對(duì)于一些對(duì)安全性要求較高的下游任務(wù)(如自動(dòng)駕駛、人臉識(shí)別等)會(huì)造成嚴(yán)重危害。
 
  投毒攻擊
 
  大模型預(yù)訓(xùn)練時(shí)所使用的海量多源異構(gòu)數(shù)據(jù)包含了多種模態(tài)信息,而針對(duì)圖像、文本、音頻等模態(tài)的擾動(dòng)方式不一,增大了投毒攻擊的風(fēng)險(xiǎn)。此外,由于監(jiān)督學(xué)習(xí)中的多數(shù)投毒攻擊算法在生成擾動(dòng)時(shí)依賴標(biāo)簽,直接用于對(duì)比學(xué)習(xí)在劣化模型性能上影響較小,因此出現(xiàn)了一些適用于自監(jiān)督學(xué)習(xí)的投毒方案,例如He等人[1]提出了對(duì)比學(xué)習(xí)中的任意數(shù)據(jù)投毒攻擊方案——對(duì)比投毒(Contrastive Poisoning,CP),并通過(guò)實(shí)驗(yàn)證明了在對(duì)比學(xué)習(xí)中進(jìn)行的投毒攻擊會(huì)影響到模型在下游任務(wù)上的精度。
 
  對(duì)抗樣本
 
  億級(jí)至萬(wàn)億級(jí)別的參數(shù)、在無(wú)標(biāo)簽數(shù)據(jù)上訓(xùn)練一定程度上緩解了大模型遭受對(duì)抗樣本的風(fēng)險(xiǎn),大模型對(duì)于對(duì)抗樣本不再那樣敏感,面對(duì)對(duì)抗攻擊表現(xiàn)出了不錯(cuò)的魯棒性[2],但當(dāng)前大模型的魯棒性和泛化能力尚無(wú)法達(dá)到完全不受對(duì)抗擾動(dòng)影響的程度,不同領(lǐng)域、不同類型的大模型都將面臨對(duì)抗樣本的困擾。
 
  例如,Yang等人[3]在預(yù)訓(xùn)練代碼模型CodeBERT上進(jìn)行了攻擊。代碼中的對(duì)抗樣本在操作程序語(yǔ)義上和原代碼段無(wú)差,但引入了一些微小變化(如修改變量名),就會(huì)導(dǎo)致模型在代碼理解上出現(xiàn)偏差,在黑盒預(yù)訓(xùn)練模型CodeBERT上構(gòu)造的對(duì)抗樣本可以遷移到漏洞預(yù)測(cè)、克隆檢測(cè)等下游任務(wù)上。
 
  提示注入
 
  提示是當(dāng)前人與大模型的主流交互方式。提示注入(Prompt Injection)是2022年9月出現(xiàn)的一種安全漏洞形式。攻擊者精心構(gòu)造和設(shè)計(jì)特定的Prompt,達(dá)到①繞過(guò)大語(yǔ)言模型的過(guò)濾策略,生成歧視、暴力等惡意內(nèi)容;②無(wú)視原本提示詞,遵循惡意提示生成特定內(nèi)容;或是③竊取大模型Prompts等目的。提示注入可以和其他技巧結(jié)合,提高攻擊效果,例如結(jié)合思維鏈(Chain-of-Thought,CoT)拆解復(fù)雜問(wèn)題,將更容易繞過(guò)安全策略。
 
  成員推斷攻擊
 
  成員推斷攻擊(Membership Inference Attack)對(duì)大模型是不可忽視的威脅之一。Misra[4]證明了在查詢受限的黑盒場(chǎng)景下,即便攻擊者不知曉訓(xùn)練數(shù)據(jù)的真實(shí)值或統(tǒng)計(jì)信息,Transformer模型也難以抵抗攻擊者發(fā)起的成員推斷攻擊,揭示了Transformer存在訓(xùn)練數(shù)據(jù)隱私泄露風(fēng)險(xiǎn)。
 
  模型反演
 
  模型反演攻擊(Model Inversion Attack)旨在通過(guò)目標(biāo)模型的輸出,反推和恢復(fù)部分或全部訓(xùn)練數(shù)據(jù)。Deng等人[5]針對(duì)分布式學(xué)習(xí)場(chǎng)景,對(duì)Transformer、BERT等語(yǔ)言模型實(shí)施了梯度攻擊,其提出的梯度攻擊方案TAG根據(jù)共享的梯度信息恢復(fù)了部分訓(xùn)練文本數(shù)據(jù)的Tokens。該方案可以遷移到多種相似模型上,如DistilBERT、RoBERTa。
 
  模型竊取
 
  模型竊取(Model Extraction Attacks)是一類侵犯模型版權(quán)的攻擊。Krishna等人[6]提出了針對(duì)BERT模型的竊取方案,攻擊者首先設(shè)計(jì)問(wèn)題問(wèn)詢目標(biāo)黑盒BERT模型,再根據(jù)目標(biāo)模型的回答優(yōu)化訓(xùn)練自己的本地模型,使本地模型與目標(biāo)BERT模型的表現(xiàn)接近,達(dá)到模型竊取的目的。
 
  其他
 
  除了上述常見(jiàn)的安全和隱私風(fēng)險(xiǎn)外,大模型自身、使用大模型的用戶還面臨其他風(fēng)險(xiǎn):
 
  深度學(xué)習(xí)框架、依賴庫(kù)中的安全漏洞:深度學(xué)習(xí)的井噴式發(fā)展也帶來(lái)了深度學(xué)習(xí)框架漏洞的大量披露,在人工智能項(xiàng)目中常使用的Tensorflow、PyTorch、Caffe框架被國(guó)內(nèi)外高校和企業(yè)曝出多個(gè)安全漏洞,涵蓋DoS 拒絕服務(wù)攻擊、緩沖區(qū)溢出、代碼執(zhí)行、系統(tǒng)損害攻擊、內(nèi)存越界等漏洞類型??蚣芎鸵蕾噹?kù)中的漏洞會(huì)在調(diào)用組件、模型加載、算法運(yùn)行等過(guò)程被觸發(fā)并破壞大模型的正常訓(xùn)練和使用。
 
  多模態(tài)對(duì)齊:比起單一模態(tài),多模態(tài)數(shù)據(jù)包含了豐富且相互補(bǔ)充的信息,但多模態(tài)表達(dá)的不一致性可能會(huì)導(dǎo)致模型在預(yù)測(cè)時(shí)受到非重要特征和噪聲的干擾,例如在大模型執(zhí)行圖像分類任務(wù)時(shí),可能會(huì)受到圖像中的文字信息干擾而忽視圖像重要特征,致使分類錯(cuò)誤,因此多模態(tài)內(nèi)容的有效對(duì)齊和融合是一個(gè)重要研究方向。
 
  數(shù)據(jù)刪除驗(yàn)證:大模型的涌現(xiàn)能力離不開(kāi)參數(shù)量的支撐,參數(shù)量已可以達(dá)到百億、千億級(jí)別。當(dāng)用戶要求大模型提供商在訓(xùn)練集中刪除個(gè)人隱私數(shù)據(jù)時(shí),大模型的海量參數(shù)會(huì)導(dǎo)致機(jī)器遺忘(Machine Unlearning)的難度很高,且驗(yàn)證大模型在訓(xùn)練中是否刪除個(gè)別數(shù)據(jù)較為困難。
 
  數(shù)據(jù)漂移:隨著時(shí)間推移,數(shù)據(jù)分布較大模型訓(xùn)練時(shí)會(huì)發(fā)生變化,部署中的大模型需要保證在變化數(shù)據(jù)上輸出的準(zhǔn)確性,對(duì)數(shù)據(jù)變化、模型性能進(jìn)行監(jiān)控和檢測(cè)是解決該問(wèn)題的有效方法。
 
  模型濫用:通過(guò)對(duì)抗重編程使大模型被用于執(zhí)行其目標(biāo)任務(wù)之外的任務(wù),攻擊者能夠避免訓(xùn)練模型所需的計(jì)算資源,甚至可以將大模型重用于非法任務(wù)。
 
  三、大模型安全防護(hù)策略
 
  本節(jié)從魯棒性、可靠性、隱私性、公平性和可解釋性五個(gè)可信屬性角度,介紹大模型安全性提升策略,包括對(duì)可信屬性的評(píng)估策略、可信屬性的保障和防護(hù)策略等。
 
  魯棒性
 
  魯棒性反映了模型抵抗外部擾動(dòng)、輸入噪聲的能力。
 
  大模型魯棒性的評(píng)估旨在測(cè)試大模型在異常/有毒數(shù)據(jù)上的預(yù)測(cè)結(jié)果是否正確。主流策略是直接使用公開(kāi)數(shù)據(jù)集(如 Real Toxicity Prompts)對(duì)大模型魯棒性進(jìn)行評(píng)估;或是通過(guò)直接執(zhí)行攻擊得到的攻擊成功率反映大模型在某類攻擊上的魯棒性。
 
  大模型魯棒性的提升技術(shù)和思路有:
 
  異常數(shù)據(jù)檢測(cè):利用異常樣本和良性樣本的分布差異或在隱藏空間上的特征差異,檢測(cè)數(shù)據(jù)中的異常值。
 
  數(shù)據(jù)增強(qiáng):數(shù)據(jù)增強(qiáng)對(duì)于對(duì)抗攻擊、后門(mén)攻擊、投毒攻擊來(lái)講都是相當(dāng)有效的防御機(jī)制,通過(guò)對(duì)圖片、文本等數(shù)據(jù)實(shí)施各種變換,在豐富數(shù)據(jù)集多樣性的同時(shí),降低異常數(shù)據(jù)的有效性。
 
  魯棒訓(xùn)練:通過(guò)改進(jìn)訓(xùn)練過(guò)程來(lái)降低惡意數(shù)據(jù)的影響,提高大模型面對(duì)對(duì)抗樣本的預(yù)測(cè)準(zhǔn)確率。
 
  模型清洗:模型檢測(cè)技術(shù)被用于判斷模型是否被植入了后門(mén),對(duì)于毒化模型,可以通過(guò)剪枝、微調(diào)等技術(shù)消除模型中的后門(mén)或緩解有目標(biāo)投毒攻擊對(duì)模型的影響。
 
  可靠性
 
  可靠性是描述模型在現(xiàn)實(shí)世界環(huán)境中一致工作、正確地完成目標(biāo)任務(wù)的屬性,確保模型面對(duì)未知數(shù)據(jù)應(yīng)具備正確預(yù)測(cè)的能力。
 
  可靠性評(píng)估框架和工具是有效的評(píng)估方案,如Shen等人[7]提出的可靠性評(píng)估框架覆蓋多領(lǐng)域測(cè)試樣本和多種問(wèn)答類型,能夠較為全面地評(píng)估大模型輸出的可靠性。
 
  大模型可靠性提升策略可以參考:
 
  高質(zhì)量的訓(xùn)練數(shù)據(jù):確保大模型使用的訓(xùn)練數(shù)據(jù)是準(zhǔn)確、全面、代表性的,以此保障高質(zhì)量的數(shù)據(jù)對(duì)模型性能產(chǎn)生正面影響。提升數(shù)據(jù)集質(zhì)量的方式有異常數(shù)據(jù)檢測(cè)和清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)增強(qiáng)、數(shù)據(jù)質(zhì)量持續(xù)監(jiān)控和維護(hù)等。
 
  多樣化的評(píng)估策略:使用多種評(píng)估方法和指標(biāo)來(lái)評(píng)估模型的性能,避免過(guò)于依賴單一的評(píng)估指標(biāo)。
 
  管理模型的不確定性:識(shí)別和管理模型輸出結(jié)果中的不確定性,合理傳達(dá)模型的置信度和范圍。
 
  提高模型可解釋性:可解釋性幫助用戶理解模型的決策過(guò)程和預(yù)測(cè)原理,從而在提升可靠性時(shí)具備更強(qiáng)的目標(biāo)性。
 
  隱私性
 
  隱私性是模型保護(hù)隱私數(shù)據(jù)的能力,確保未得到授權(quán)的用戶無(wú)法接觸到入模數(shù)據(jù)和大模型的隱私信息。
 
  評(píng)估大模型隱私性的主流思路是從攻擊視角反映大模型的隱私泄露情況,如成員推斷攻擊可以評(píng)估大模型訓(xùn)練數(shù)據(jù)的隱私泄露情況,模型竊取可用于評(píng)估大模型自身隱私風(fēng)險(xiǎn)和版權(quán)保護(hù)手段的有效性。
 
  大模型隱私性保障技術(shù)包括:
 
  加密存儲(chǔ):對(duì)大模型中的對(duì)話數(shù)據(jù)、用戶賬戶隱私信息、模型信息進(jìn)行加密存儲(chǔ),設(shè)置身份認(rèn)證和訪問(wèn)控制策略,降低隱私數(shù)據(jù)被竊取和篡改風(fēng)險(xiǎn)。
 
  差分隱私:差分隱私旨在通過(guò)對(duì)數(shù)據(jù)加噪,確保當(dāng)訓(xùn)練集中某一數(shù)據(jù)存在和不存在時(shí),模型預(yù)測(cè)結(jié)果受到的影響有限,從而阻止攻擊者根據(jù)模型輸出推斷數(shù)據(jù)集中的具體數(shù)據(jù)信息。
 
  同態(tài)加密:同態(tài)加密在明文和密文上進(jìn)行計(jì)算得到的結(jié)果相同,因此可以直接在加密后的隱私數(shù)據(jù)上進(jìn)行運(yùn)算,保障數(shù)據(jù)隱私。但同態(tài)加密時(shí)間復(fù)雜度高,面對(duì)海量數(shù)據(jù)效率較低。
 
  安全多方計(jì)算:安全多方計(jì)算允許各參與方輸入對(duì)其他方保密的情況下,根據(jù)輸入共同計(jì)算一個(gè)函數(shù),確保了整個(gè)系統(tǒng)中個(gè)體敏感數(shù)據(jù)的隱私性。
 
  模型水印和指紋:模型竊取攻擊會(huì)威脅到模型擁有者的知識(shí)產(chǎn)權(quán),模型水印和指紋是維護(hù)模型知識(shí)產(chǎn)權(quán)的重要技術(shù)。水印的嵌入通常發(fā)生在模型訓(xùn)練階段,采取植入后門(mén)或權(quán)重正則化的方式為待保護(hù)模型嵌入特定水印。指紋則利用模型自身已有的內(nèi)在特征,將模型在對(duì)抗樣本或一些被錯(cuò)誤分類樣本上輸出的相關(guān)性作為模型的“身份”依據(jù)。
 
  公平性
 
  公平性是模型在面對(duì)不同群體、個(gè)體時(shí)不受敏感屬性影響的能力,公平性的缺失會(huì)導(dǎo)致模型出現(xiàn)性別歧視、種族歧視、基于宗教的偏見(jiàn)、文化偏見(jiàn)、地域政治偏差、刻板印象等有害的社會(huì)成見(jiàn)。
 
  公平性的評(píng)估旨在考察大模型中存在哪些偏見(jiàn),針對(duì)目標(biāo)問(wèn)題涉及的敏感屬性,收集、設(shè)計(jì)具備代表性和多樣化的問(wèn)答對(duì)或數(shù)據(jù)集(如 BBQ 偏見(jiàn)問(wèn)答數(shù)據(jù)集),通過(guò)分組比較、敏感性分析等策略識(shí)別大模型面對(duì)不同群體的表現(xiàn)差異,并采用公平性相關(guān)指標(biāo)(如平均預(yù)測(cè)差異、均衡誤差率、公平性增益等)量化偏見(jiàn)程度及公平性改進(jìn)效果。
 
  糾偏技術(shù)和思路能夠削減模型在敏感屬性上的偏見(jiàn),如:
 
  人類反饋強(qiáng)化學(xué)習(xí)(RLHF):OpenAI在GPT-3、InstructGPT中都采用了 RLHF,以校準(zhǔn)大模型的輸出與人類社會(huì)的倫理道德、價(jià)值觀保持一致,確?;卮鸬目煽亢蜔o(wú)害。
 
  AI 反饋強(qiáng)化學(xué)習(xí)(RLAIF):Anthropic 在 Claude 中使用的對(duì)齊方法,能夠顯著降低對(duì)人類反饋標(biāo)注數(shù)據(jù)的依賴,成本低且有效。
 
  上下文學(xué)習(xí)(ICL):上下文學(xué)習(xí)是大模型的一個(gè)重要的涌現(xiàn)能力,可以用于校準(zhǔn)大模型中的已知偏見(jiàn)。
 
  可解釋性
 
  可解釋性是模型使用者直觀理解模型內(nèi)部機(jī)制和決策邏輯、確保人工智能可問(wèn)責(zé)的重要性質(zhì)。
 
  模型可解釋方法采用的思路一般分為對(duì)數(shù)據(jù)的可視化和統(tǒng)計(jì)分析等事前可解釋方法、對(duì)模型的可視化和靜態(tài)分析技術(shù)、對(duì)模型預(yù)測(cè)結(jié)果的假設(shè)檢驗(yàn)等事后可解釋方法。這些方法對(duì)輸入特征、模型神經(jīng)元等因子的重要性提供局部或全局的可解釋性。常見(jiàn)的可解釋性方法包括:
 
  可視化方法:可視化是最直觀的可解釋方法。對(duì)Transformer、BERT等語(yǔ)言模型的可視化信息有助于人們理解模型內(nèi)部工作機(jī)制、定位模型決策的影響因素??晒┦褂玫目梢暬ぞ哂蠺ensorboard、Visdom、TorchSummary等。
 
  基于擾動(dòng)的可解釋方法:根據(jù)擾動(dòng)樣本評(píng)估輸入特征重要性,如 LIME、SHAP。
 
  基于梯度的可解釋方法: 以模型輸出與輸入特征之間的梯度作為考量特征重要性的標(biāo)準(zhǔn),度量輸入特征的重要程度,如Saliency Map。
 
  注意力機(jī)制可解釋方法: 對(duì)注意力矩陣的決策歸因方法從基礎(chǔ)模型內(nèi)部信息流的角度提供可解釋信息,如ATTATTR[8]。
 
  四、結(jié)語(yǔ)
 
  當(dāng)前的 AI 大模型發(fā)展得尚不成熟,面臨著諸多安全隱患與風(fēng)險(xiǎn)。可以預(yù)見(jiàn),隨著深度學(xué)習(xí)技術(shù)的發(fā)展和研究的深入,未來(lái)大模型的攻防將在動(dòng)態(tài)抗衡中將不斷升級(jí),大模型需要應(yīng)對(duì)的新型安全威脅將不斷涌現(xiàn)和升級(jí),建立完善統(tǒng)一的大模型安全評(píng)估框架、探索有效的防御機(jī)制、實(shí)現(xiàn) AI 大模型安全監(jiān)管和可控生成,以及促進(jìn)大模型安全生態(tài)的建設(shè)等任務(wù)迫在眉睫。
關(guān)鍵詞 大模型安全風(fēng)險(xiǎn)
相關(guān)閱讀更多
版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明“來(lái)源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智慧城市網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它來(lái)源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

正在閱讀:綠盟科技:大模型安全風(fēng)險(xiǎn)與防護(hù)策略
我要投稿
  • 投稿請(qǐng)發(fā)送郵件至:(郵件標(biāo)題請(qǐng)備注“投稿”)afzhan@foxmail.com
  • 聯(lián)系電話0571-87756384
智慧城市行業(yè)“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)
智慧城市網(wǎng)APP

功能豐富 實(shí)時(shí)交流

智慧城市網(wǎng)小程序

訂閱獲取更多服務(wù)

微信公眾號(hào)

關(guān)注我們

抖音

智慧城市網(wǎng)

抖音號(hào):afzhan

打開(kāi)抖音 搜索頁(yè)掃一掃
i

視頻號(hào)

AF智慧城市網(wǎng)

視頻號(hào)ID:sphF7DOyrojJnp8

打開(kāi)微信掃碼關(guān)注視頻號(hào)

小紅書(shū)

智慧城市

小紅書(shū)ID:2537047074

打開(kāi)小紅書(shū) 掃一掃關(guān)注
反饋