要想用好GPT,我們必須跑得比“黑客”更快
今年,在 OpenAI 的 ChatGPT 展現(xiàn)出了驚人表現(xiàn)后,一眾明星大佬紛紛表示自己為新技術(shù)激動得“徹夜不眠”。
跟這一眾明星大佬同樣激動的其實還有“黑客”。畢竟業(yè)界還在為落地場景“摸石頭過河”,而利用生成式 AI 進(jìn)行詐騙,基本已經(jīng)是一騙一個準(zhǔn)兒:“網(wǎng)友遭遇新型 AI 詐騙,10 分鐘被騙 430 萬”、“AI 冒充卷福詐騙電影公司 20 萬英鎊”......
AIGC 給黑產(chǎn)灰產(chǎn)行業(yè)帶來了巨額利潤,讓這些不合規(guī)的行業(yè)也就成為了新技術(shù)應(yīng)用最快、最深入的行業(yè)。而且,AIGC 給社會帶來的威脅只會越來越大,ChatGPT 出現(xiàn)后,黑客效率得到了極大提升,“腳本小子”進(jìn)化為了“Prompt 小子”,不僅讓攻擊方式變得更加多樣,還能利用 ChatGPT 來尋找漏洞,制定攻擊方案和提供攻擊策略,而 AIGC 生成的代碼帶有漏洞在當(dāng)前又是不可避免的。
這就是當(dāng)前令人擔(dān)憂的現(xiàn)實。在這個背景下,我們不得不重視“安全”,而要想改變現(xiàn)有的網(wǎng)絡(luò)安全態(tài)勢,安全企業(yè)必然需要擁抱這波人工智能技術(shù)。所以,比起其他不確定的業(yè)務(wù)場景,“安全”肯定是最先被 GPT 革新的行業(yè)之一。
“這確實是劃時代的一個東西,跟原來的 AI 人工智能期確實是不一樣的。”
大語言模型對社會基礎(chǔ)知識,尤其是文字知識的理解,遠(yuǎn)超了一般人。大語言模型的“涌現(xiàn)”能力更是讓人非常震撼,“涌現(xiàn)”標(biāo)志著這波 AI 已經(jīng)具備了類似于人的一種思考能力,這也是與原來的 AI 不一樣的地方。與各行各業(yè)積極尋求落地場景不同,安全行業(yè)卻是“被迫”必須跟進(jìn)的行業(yè)之一。
在安全領(lǐng)域,大家普遍認(rèn)為“攻”走在“防”的前面,特別現(xiàn)在大模型的能力已經(jīng)讓社會工程攻擊變得更加個性化和自動化,難以被識別。“觀察下來,最明顯的趨勢就是很多人都在用 AI 來做欺詐、編寫釣魚郵件和惡意軟件。社會工程攻擊大多是鏈?zhǔn)降模徊浇又徊剑竽P偷某霈F(xiàn)使得社工整個鏈路的自動化程度大大提升了。以前的手段多為模版,ChatGPT 這類大模型在交互上的進(jìn)步則為這些場景帶來了模擬特定角色的能力,可以和被攻擊者進(jìn)行多輪對話而不被識破。”騰訊安全大數(shù)據(jù)實驗室高級研究員楊政愷談到當(dāng)前網(wǎng)絡(luò)安全態(tài)勢時說道。
新技術(shù)的應(yīng)用模式和效果也出人意料,一個令人印象深刻的例子是用 AIGC 制作安裝免費軟件的視頻,上傳到 Youtube 這類的平臺,引導(dǎo)觀看者按照它的操作來下載植入惡意代碼的軟件。不僅目前的機(jī)制難以檢測視頻中引導(dǎo)和潛在的惡意行為,而且隨著視頻的推薦算法,這樣的視頻又能夠傳播到更多的目標(biāo)群體,讓攻擊變得更大,并且更加有效,“在幾個小時內(nèi),可能會有數(shù)百名用戶成為犧牲品”。
社會上研究造假的比研究怎么預(yù)防造假的還要領(lǐng)先,這是事實,但這種落后并不是技術(shù)難度導(dǎo)致的。知道創(chuàng)宇副總裁、TGO 會員李偉辰表示,“研究預(yù)防造假往往無利可圖,而黑產(chǎn)灰產(chǎn)這些非法行業(yè)卻只受‘利益’牽引。真實世界就是這樣,互聯(lián)網(wǎng)技術(shù)剛普及的時候,應(yīng)用最快的也是一些黃賭毒非法領(lǐng)域。但最后我們還是會想到很多方式來治理它。大模型也會有同樣的發(fā)展過程。”
而且,從檢測原理上來講,AIGC 生成內(nèi)容的時候,一定是依據(jù)某個模型出來的。現(xiàn)在市面上最基本的模型并不多,所以絕大多數(shù)的這些 AIGC 內(nèi)容,都是基于少數(shù)幾個模型做出來的,生成的數(shù)據(jù)有一定模式或者說是一些共通的東西。只要收集到足夠的最終成品的數(shù)據(jù),通過聚類或匹配其他算法,找出固有的特征,就能檢測出來哪些是生成的哪些是真實的。技術(shù)原理比較簡單,關(guān)鍵是要有足夠的數(shù)據(jù)和足夠的算力,李偉辰表示,目前業(yè)界在數(shù)據(jù)和算力上投入不夠,才導(dǎo)致了對抗技術(shù)的落后狀態(tài)。
騰訊安全內(nèi)容風(fēng)控技術(shù)專家李鎬澤表示企業(yè)防御主要還是在于要“主動出擊”:要全鏈路、主動發(fā)掘、提前預(yù)防,因為 AIGC 伴隨的數(shù)據(jù)量級非常大,各個媒體平臺、社交平臺和網(wǎng)絡(luò)傳播速度非常快,“所以說我們不能只是事后來防御,我們要從生成它的時候、訓(xùn)練的時候提早來進(jìn)行內(nèi)容安全風(fēng)險的防范。”
“我們不僅要投資大語言模型,也要投資建設(shè)更好的掃描工具。”
軟件開發(fā)人員也對生成式 AI 感到興奮,有統(tǒng)計說一個有經(jīng)驗的開發(fā)人員需要半小時才能寫出的東西,用 GPT 只需 40 秒。
當(dāng)然,總有一個“但是”,雖然生產(chǎn)力提高了,但是 GPT 對軟件開發(fā)的風(fēng)險可能仍然大于收益。有人曾使用 Copilot 編寫了一些基本的網(wǎng)絡(luò)開發(fā)代碼,生成代碼中就了包含不少錯誤,比如使網(wǎng)頁對 SQL 注入開放、使用過時的哈希算法...... 去年底,有研究表明,Copilot 編寫的程序中有 40% 包含至少一個漏洞。這些常見漏洞還跨站腳本攻擊、信息泄露、路徑遍歷、命令注入等等。一位研究員點評,“這些工具根本不考慮安全性!”
現(xiàn)在的生成模型其實就在做一件事,在給定的上文的情況下預(yù)測下一個最有可能的 token,不停地重復(fù)這個過程,你就得到了生成模型生成的下文。在大量代碼庫的訓(xùn)練下,模型學(xué)到了在給定注釋、函數(shù)名、部分代碼實現(xiàn)(作為上文),來預(yù)測接下來的代碼實現(xiàn)(下文)的能力,也就有了現(xiàn)在的代碼生成。
大模型會學(xué)習(xí)到不安全的代碼,也無法在生成時考慮所有的情況,所以安全風(fēng)險無法避免。
拿 C/C++ 舉例來說,代碼生成最難繞開的,是指針相關(guān)問題,AIGC 無法將其規(guī)則完全地考慮到。AIGC 完全不知道相關(guān)代碼是否是一個空指針,很多代碼不會強(qiáng)制對指針使用進(jìn)行檢查;從全局看,由于上下文的組合變換,生成的代碼不會強(qiáng)行限制只能被 free 一次,有一些 API 的行為是黑盒的,甚至你也不知道它會把指針 free 掉。如果不具備安全知識,就可能會存在空指針解引用、UAF、Double free 這方面的問題,最后帶來信息泄漏、命令注入提權(quán)等危害。
檢查代碼準(zhǔn)確性、安全性的一些工作目前還不能落到人工智能的肩上。騰訊安全大數(shù)據(jù)實驗室高級研究員陳鵬認(rèn)為目前 ChatGPT 的安全檢測能力是跟不上傳統(tǒng)的安全工具的,因為從程序的動靜態(tài)分析的角度來說,傳統(tǒng)的分析可以把所有程序做一個全局的分析,但用 GPT 進(jìn)行檢測的時候,因為它的限制,以及它的學(xué)習(xí)機(jī)制的問題,只能去做一些局部的分析,在實際情況下,可能就僅對上傳的那塊代碼之內(nèi)進(jìn)行分析,對一些由于鏈路比較長導(dǎo)致的比較復(fù)雜的問題,它是檢測不出來的。
而且通過自身的體會,陳鵬認(rèn)為用 GPT 檢查代碼基本上是一件得不償失的事情:“我是不會在目前的狀況上拿 ChatGPT 來幫我檢測漏洞的。首先我對自己寫的代碼還是比較有信心的,如果它能檢測出來的話,我也能通過簡單的代碼 review 發(fā)現(xiàn)。現(xiàn)在看來它只能檢測出比較簡單的漏洞,對于非常復(fù)雜的漏洞,可能真的檢測不出來。另外 ChatGPT 的檢測會帶來很多誤報,如果去看這些誤報,會分擔(dān)我額外的精力。”
也就是說,目前 GPT 在生成代碼方面還沒有“自愈”能力。其代碼水平大概相當(dāng)于一個入職一兩個月的實習(xí)生。而且據(jù)外媒報道,F(xiàn)orrester、Gartner 以及一些其他咨詢公司建議企業(yè)推遲使用 ChatGPT 進(jìn)行代碼生成、代碼安全掃描和安全代碼審查,因為大型語言模型仍然難以編寫干凈的代碼并且容易出現(xiàn)錯誤信息。
這是一個矛盾的狀態(tài),大模型能大幅提升交付代碼的速度和效率,但又充滿錯誤或不安全的代碼,大家還擔(dān)心自己趕不上這波人工智能的潮流,那我們該如何選擇?
作為安全行業(yè)資深技術(shù)專家,李偉辰認(rèn)為我們還是要“擁抱變化”,并且關(guān)鍵還得看我們?nèi)绾问褂盟鼈儯喝绻麑?GPT 比為職場新人,職場新人寫的代碼肯定是存在問題的,但我們不能不使用新人。我們應(yīng)該將 GPT 代碼生成當(dāng)工作的第一步,后面還需要有完整的測試,包括白盒黑盒測試、單元測試、集成測試等,以及持續(xù)集成,以及驗收手段。
“質(zhì)量保證一定要做好!這實際上是對支撐平臺和質(zhì)量保證體系提出了更高的要求,需要我們更加制度化、更加自動化的去使用這些工具。其實沒有什么新的方式,只是需要比原來的要求更嚴(yán)格。”
OpenSSF CTO Brian Behlendorf 對此測試驅(qū)動開發(fā)的最佳實踐原則也非常贊同,他認(rèn)為程序員必須為自己的代碼負(fù)責(zé),不要想著借 GPT 之手搞定一切,不然“純屬自作自受”。
Brian 認(rèn)為,在投入時間相同的前提下,GPT 生成的代碼仍然比人類更安全。只是有些安全漏洞需要參考整個系統(tǒng)才能被檢測出來,這對 AI 系統(tǒng)來說就很困難了。所以開發(fā)者還是得保持深入研究、了解問題根源的能力,并且特別有必要了解大語言模型中的各個層及其構(gòu)建方式,知曉這些工具內(nèi)部到底是怎樣運作的。
無論如何,大語言模型將成為一種非常高效的加速器,能幫助更多人成為 10 倍開發(fā)者。“我認(rèn)為開發(fā)永遠(yuǎn)是人與工具的結(jié)合。所以我們不僅要投資大語言模型,也要投資建設(shè)更好的掃描工具,這一點非常重要。”
“我覺得肯定能用 AI 幫助開發(fā)者構(gòu)建更好的掃描工具,檢測出更多安全漏洞。目前已經(jīng)有人在應(yīng)用機(jī)器學(xué)習(xí)來掃描漏洞,雖然難度很高而且尚處于早期發(fā)展階段,但我仍看好這方面探索。”
給予時間,努力提高常用開源項目的質(zhì)量下限,以此來減少大語言模型可能在代碼中引入的常見 bug,代碼生成工具終將會變得更完善。
“這有點像賽車運動,無論是使用手動變速箱還是自動變速箱不是重點,重點在于怎樣比其他對手跑得更快。開發(fā)也是,要不要使用 AI 生成的代碼并不是重點,重點在于如何更好地構(gòu)建安全代碼并幫助其他人安全使用開發(fā)成果。”“而且構(gòu)建構(gòu)建安全代碼這事并不難掌握,OpenSSF 在培訓(xùn)網(wǎng)站上發(fā)布了一門完全免費的課程,整個學(xué)習(xí)過程大概是 16 個小時。”
6 月 1 日,OpenAI 發(fā)布公告稱,正在啟動一項“網(wǎng)絡(luò)安全撥款計劃”。該計劃投入 100 萬美元,以促進(jìn)高水平人工智能和網(wǎng)絡(luò)安全的“進(jìn)化”。OpenAI 表示,“我們希望先進(jìn)的人工智能首先讓防御者受益;目標(biāo)是與全球網(wǎng)安人士進(jìn)行合作,通過在網(wǎng)安領(lǐng)域應(yīng)用人工智能,來簡化安全工作,提升效率,改變網(wǎng)絡(luò)安全現(xiàn)有的態(tài)勢。”具體工作包括檢測和緩解社會工程策略、自動化事件分類、識別源代碼中的安全問題、協(xié)助開發(fā)人員開發(fā)設(shè)計安全和默認(rèn)安全的軟件、幫助安全工程師和開發(fā)人員創(chuàng)建強(qiáng)大的威脅模型等等。
OpenAI 開始卷網(wǎng)絡(luò)安全,也說明大模型給安全行業(yè)帶來了新的機(jī)遇。AIGC 出現(xiàn)后,大家都希望利用到它的紅利,希望用它來改造自己所在的行業(yè),但目前真正能落地到行業(yè)中的很少。但是在安全行業(yè)里,社會工程攻擊量在全世界范圍內(nèi)急劇增加,大家對這個行業(yè)的關(guān)注度很高,并且安全本身有其專業(yè)性,全球幾百萬家安全企業(yè),幾乎都處于不同的細(xì)分領(lǐng)域里,所以 AIGC 在安全行業(yè)里的應(yīng)用還算靠前的。
“OpenAI 給出來的幾個問題,其實都是都蠻大的問題,具體怎么去做,還是得需要一些好的想法。這需要結(jié)合特定領(lǐng)域的場景,以及傳統(tǒng)的安全技術(shù)沉淀下來的數(shù)據(jù)和積累的大量領(lǐng)域知識,去訓(xùn)練出符合該領(lǐng)域需求的大模型。”陳鵬指出。
而安全霸主微軟,早在三個月前,就推出了 Security Copilot,讓 GPT-4 進(jìn)入到了網(wǎng)絡(luò)安全領(lǐng)域。Security Copilot 通過提供一個“對話框”,讓用戶能夠用自然語言調(diào)用微軟收集到的安全數(shù)據(jù),形成安全報告,讓用戶及時發(fā)現(xiàn)潛在威脅和漏洞。但 Copilot 又并不僅僅是一個“對話框”,它要理解用戶的問題,調(diào)用合適的應(yīng)用拿到相關(guān)數(shù)據(jù),再結(jié)合背景信息,制定安全策略,再以人類能讀懂的文字或圖片形式進(jìn)行反饋。
如果是靠安全專家來做這個事情,他需要做很多數(shù)據(jù)分析處理工作。比如分析漏洞會影響哪些業(yè)務(wù)系統(tǒng),然后根據(jù)攻擊來源及其漏洞影響范圍,將企業(yè)里防火墻、網(wǎng)絡(luò)交換機(jī)、個人電腦等來自不同地方的相關(guān)數(shù)據(jù)匯總成我們能理解的圖表。這種活兒剛好大模型特別擅長,GPT 在理解領(lǐng)域知識或不同來源日志數(shù)據(jù)的方面,有著傳統(tǒng)及其無法比擬的便利性,它能將來自不同來源的數(shù)據(jù)經(jīng)過加工分析,呈現(xiàn)出一個人類能理解的形式,然后展現(xiàn)給最終用戶。李偉辰認(rèn)為 Security Copilot 這類的產(chǎn)品將來會變得很普及,降低人工在這里邊的投入,提升算法在結(jié)果里的貢獻(xiàn)。
而且李偉辰特別看好 GPT 在安全行業(yè)的這種數(shù)據(jù)治理能力:“Transformers 這類算法能在大數(shù)據(jù)背景下找到語言內(nèi)部的邏輯關(guān)系。我們在處理安全里邊的大數(shù)據(jù)的時候,也遇到過一些非常棘手的問題,那就是用傳統(tǒng)的知識圖譜的思路去做的時候,發(fā)現(xiàn)維度增多,數(shù)量變大,現(xiàn)有的算力已經(jīng)完全沒法支持。這時候就可以嘗試用 GPT 這類模型,在處理多維度的數(shù)據(jù)的關(guān)聯(lián)分析上,它的剪枝能力能將計算量降低到一個我們可以承受的范圍,數(shù)據(jù)治理工作量呈現(xiàn)了幾何級的下降,這種方式能給安全帶來一些革命性的變化。”
Copilot 這類的產(chǎn)品將數(shù)據(jù)治理簡化之后,會直接影響到 XDR 態(tài)勢分析和 SOAR 自動化運維這兩個非常依賴于經(jīng)驗和歷史項目積累的行業(yè)。現(xiàn)在這兩個行業(yè)是嚴(yán)重依賴安全工程師的人力去跟其他產(chǎn)品對接,跟客戶進(jìn)行各種溝通,按照客戶的需求定制各種策略。未來這個局面會大大改觀。
兩三年之內(nèi)還能看到的另外一個趨勢,就是在內(nèi)容安全上。因為內(nèi)容安全也是國家近兩年一個重點的治理方向。AIGC 產(chǎn)生的內(nèi)容的合規(guī)性的問題是越來越突出了,監(jiān)管方面也正在出臺相關(guān)的法律法規(guī)。有了監(jiān)管的推動,可能在這方面會創(chuàng)造出一個新產(chǎn)品品類。那對于整個安全行業(yè)也是一個促進(jìn)。國內(nèi)如知道創(chuàng)宇這樣的安全企業(yè)也都在積極提供 AIGC 智能審核定制、內(nèi)容合規(guī)鑒別服務(wù),同時針對 AI 對話、AI 繪畫、AI 辦公、AI 搜索、AI 視頻、AI 音頻等 AIGC 應(yīng)用場景,提供 ScanA 全棧式內(nèi)容風(fēng)控體系解決方案。
最重要的是,傳統(tǒng)的安全行業(yè)做的很多苦事、臟活累活,都有可能由 GPT 來代替。“誰能最先探索出這樣一條模式來,誰就能走上一個負(fù)擔(dān)較輕的、快速發(fā)展的產(chǎn)品的模式。”
相關(guān)閱讀
https://www.infoq.cn/article/dalIGpeiZNB8m93pPGti
本文來自微信公眾號“AI前線”(ID:ai-front),采訪嘉賓:李偉辰、Brian Behlendorf、 楊政愷、陳鵬、李鎬澤,編輯:Tina,36氪經(jīng)授權(quán)發(fā)布。
