1. 首頁
  2. 資訊
  3. 技術(shù)
  4. MIT開發(fā)出新算法 可幫助AI系統(tǒng)規(guī)避對(duì)抗性輸入

MIT開發(fā)出新算法 可幫助AI系統(tǒng)規(guī)避對(duì)抗性輸入

蓋世汽車 劉麗婷

蓋世汽車訊 據(jù)外媒報(bào)道,麻省理工學(xué)院(MIT)的研究人員開發(fā)出一種全新深度學(xué)習(xí)算法,可對(duì)所接收的測(cè)量數(shù)據(jù)和輸入建立健全的“懷疑”機(jī)制,幫助機(jī)器在真實(shí)、不完美的世界中導(dǎo)航。

文章首席作者及麻省理工學(xué)院航空與航天系博士后Michael Everett表示:“盡管目前基于深度神經(jīng)網(wǎng)絡(luò)的系統(tǒng)在許多機(jī)器人任務(wù)中都算很前沿,但在安全關(guān)鍵領(lǐng)域中,由于深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)的網(wǎng)絡(luò)魯棒性沒有正式的保障,所以仍然很危險(xiǎn)。一旦傳感器輸入受到小擾動(dòng)(如噪聲或?qū)剐詫?shí)例)通常會(huì)改變基于網(wǎng)絡(luò)的決策,如自動(dòng)駕駛汽車會(huì)因此變換車道。

鑒于上述危險(xiǎn),研究人員已根據(jù)這些對(duì)抗性輸入開發(fā)出很多算法建立防御機(jī)制。部分對(duì)抗性輸入還可提供正式的魯棒性保證或證明。此項(xiàng)工作利用了經(jīng)驗(yàn)證的對(duì)抗魯棒性,進(jìn)而為深度強(qiáng)化學(xué)習(xí)算法開發(fā)可靠的在線魯棒算法。

前瞻技術(shù),MIT,深度學(xué)習(xí)算法,AI,對(duì)抗性輸入,深度神經(jīng)網(wǎng)絡(luò)

(圖像來源:MIT)

由于存在潛在對(duì)抗和噪音,輸入空間可能會(huì)出現(xiàn)最糟糕的偏差,因此提出的防御措施會(huì)在識(shí)別和選擇魯棒操作執(zhí)行期,需要計(jì)算狀態(tài)操作值的保證下限。而且,即使驗(yàn)證者可能因干擾不了解真實(shí)狀態(tài)和最佳操作,最終策略仍可具備解決方案品質(zhì)保證?!?/p>

該研究團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建出新方法:CARRL,即深度強(qiáng)化學(xué)習(xí)的認(rèn)證對(duì)抗性魯棒性(Certified Adversarial Robustness for Deep Reinforcement Learning)。研究人員在不同場(chǎng)景中對(duì)該方法進(jìn)行了測(cè)試,如碰撞仿真測(cè)試和視頻游戲Pong,發(fā)現(xiàn)即使存在不確定性和對(duì)抗性輸入,CARRL也比標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)技術(shù)表現(xiàn)地更好,不僅成功避免碰撞,且在Pong游戲中多次獲勝。

Everett還表示:“在出現(xiàn)對(duì)抗性時(shí),用戶總是認(rèn)為有人入侵其電腦,但有可能只是傳感器性能不佳或測(cè)量工具有誤,這都很常見。我們的新算法可解決這一問題并做出安全決策。任何需要極高安全性的地方都應(yīng)該考慮采用該算法?!?/p>

可能的現(xiàn)實(shí):為了使AI系統(tǒng)能夠抵抗對(duì)抗性輸入,研究人員曾為監(jiān)督學(xué)習(xí)采用防御措施。通常情況下,會(huì)通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)使其將標(biāo)簽或動(dòng)作與給定輸入相關(guān)聯(lián)。例如,曾接收過大量被標(biāo)記為貓、房屋和熱狗圖像的神經(jīng)網(wǎng)絡(luò)可以正確標(biāo)記新圖像為貓。

在強(qiáng)大的AI系統(tǒng)中,相同的監(jiān)督學(xué)習(xí)技術(shù)可使用稍作更改的圖像版本測(cè)試。如果網(wǎng)絡(luò)對(duì)每張圖片的標(biāo)記標(biāo)簽均為“貓”,無論是否更改,該圖片很有可能確實(shí)是貓,則該網(wǎng)絡(luò)對(duì)于任何對(duì)抗性影響都具有較強(qiáng)的魯棒性。但瀏覽所有圖像是不可能的,且很難應(yīng)對(duì)高時(shí)效性任務(wù),如避免碰撞。此外,如果網(wǎng)絡(luò)較不穩(wěn)定性,且一些經(jīng)修改的貓圖片會(huì)被標(biāo)記為房屋或熱狗,那么現(xiàn)有方法無法標(biāo)識(shí)圖像標(biāo)簽或確定采取何種措施。

研究人員Bj?rn Lütjens表示:“為了在對(duì)安全性要求高的場(chǎng)景下使用神經(jīng)網(wǎng)絡(luò),我們必須知道如何在最壞情況下做出實(shí)時(shí)決策。”

該團(tuán)隊(duì)希望以強(qiáng)化學(xué)習(xí)為基礎(chǔ)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的另一種形式,不需要將標(biāo)記的輸入與輸出相關(guān)聯(lián),而是旨在強(qiáng)化對(duì)某些輸入做出的響應(yīng)動(dòng)作。這種方法通常用于訓(xùn)練計(jì)算機(jī)競(jìng)技類游戲,如象棋和圍棋。采用強(qiáng)化學(xué)習(xí)的前提是,假設(shè)輸入正確。Everett及其同事們稱此次研究是首次在強(qiáng)化學(xué)習(xí)中給不確定、對(duì)抗性的輸入帶來“可驗(yàn)證的魯棒性”。

他們所采用的方法CARRL使用現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法來訓(xùn)練深度Q網(wǎng)絡(luò)或DQN(一種多層神經(jīng)網(wǎng)絡(luò),最終將輸入與Q值或獎(jiǎng)勵(lì)水平相關(guān)聯(lián))。該方法采用輸入(例如帶有單個(gè)點(diǎn)的圖像),并考慮對(duì)抗性影響或?qū)嶋H上可能在點(diǎn)周圍的區(qū)域。基于麻省理工學(xué)院研究生Tsui-Wei“Lily” Weng博士研發(fā)的技術(shù),該點(diǎn)在所處區(qū)域內(nèi)的每個(gè)可能位置都由DQN連通,發(fā)現(xiàn)關(guān)聯(lián)舉動(dòng),從而引起最佳最壞情況發(fā)生。

對(duì)抗的世界:在視頻游戲Pong的測(cè)試中,兩名玩家手持屏幕兩側(cè)的球拍來回傳遞乒乓球。研究人員在游戲中加入了一個(gè)“對(duì)手”,將球拉得比實(shí)際球高得多。他們發(fā)現(xiàn),隨著對(duì)手的影響力不斷增強(qiáng),CARRL比標(biāo)準(zhǔn)技術(shù)的獲勝率更高。

Everett表示:“如果預(yù)設(shè)測(cè)量值不完全值得信任,且乒乓球可能在固定區(qū)域內(nèi)的任何地方,那么使用該方法通知計(jì)算機(jī)將球拍置于該區(qū)域的中間,從而確保在最壞偏差下?lián)糁衅古仪??!?/p>

該方法在碰撞測(cè)試中同樣具有魯棒性。在碰撞測(cè)試中,該團(tuán)隊(duì)模擬了一個(gè)藍(lán)色和橙色代理,試圖在不發(fā)生碰撞的情況下切換位置。當(dāng)團(tuán)隊(duì)擾亂橙色代理對(duì)藍(lán)色代理位置的觀察時(shí),CARRL將橙色代理引導(dǎo)到另一個(gè)代理周圍,隨著對(duì)手越強(qiáng)大,泊位越寬,藍(lán)色代理的位置變得越不確定。

CARRL的保守變化使得橙色代理會(huì)假設(shè)另一種代理可能在其附近的任何地方,作為回應(yīng),可能會(huì)錯(cuò)過了目的地。Everett稱,這種極端保守的做法很有用,研究人員可以將其用作調(diào)整算法魯棒性的限制。比如,該算法可能會(huì)考慮較小的偏差或不確定性區(qū)域,這仍將允許代理獲得較高的報(bào)酬并到達(dá)其目的地。Everett還稱,除克服傳感器缺陷外,CARRL可能是幫助機(jī)器人安全處理現(xiàn)實(shí)世界中不可預(yù)測(cè)的交互作用的開始。

Everett表示:“人類是有對(duì)抗性的,如站在機(jī)器人前面阻礙傳感器或與它們進(jìn)行交互,但不一定是出于最佳意圖。機(jī)器人如何思考人們可能會(huì)嘗試做的所有事情?如何設(shè)法避免它們發(fā)生?我們要防御哪種對(duì)抗模型? 這就是我們正在考慮的方法?!?a class='link' target='_blank'>福特公司作為MIT的盟友,也對(duì)該項(xiàng)研究提供了部分支持。

來源:蓋世汽車

作者:劉麗婷

本文地址:http://www.healthsupplement-reviews.com/news/jishu/142235

返回第一電動(dòng)網(wǎng)首頁 >

收藏
42
  • 分享到:
發(fā)表評(píng)論
新聞推薦
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->