国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

量子位
+ 關(guān)注
2022-12-05 16:09
644次閱讀
Alex 衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

好多研究都發(fā)現(xiàn),AI這家伙好不害臊,竟也學(xué)會(huì)性別歧視了。

這可咋整?

最近,清華&復(fù)旦的一項(xiàng)研究為此給出建議:

要想把失足AI從性別歧視這條路上拽回來(lái),一頓臭罵效果可不好。

最好的辦法是了解孩子為啥這樣,然后對(duì)癥下藥給他講道理。

因?yàn)橐枪饨逃?xùn)不講道理,暴力糾正,AI會(huì)被嚇笨(性能下降)

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

哦買(mǎi)噶,養(yǎng)四腳吞金獸難,養(yǎng)(xun)個(gè)(lian)賽博孩子也得這么難了?

來(lái)看看這群AI“奶爸奶媽”,提出了哪些訓(xùn)孩子的建議吧。

在這次以前,不是沒(méi)有人揪著失足AI的耳朵,想讓它改掉重男輕女的壞毛病。

但是,目前的大多數(shù)去偏方法,都會(huì)讓模型在其他任務(wù)上的性能下降

比如你讓AI減弱了性別歧視,就會(huì)產(chǎn)生這樣的惱人結(jié)果:

它要么分不清“爸爸”的性別是男還是女,要么會(huì)犯語(yǔ)法上的錯(cuò)誤,忘記給第三人稱(chēng)后面跟著的動(dòng)詞+s。

更可氣的是,這種退化機(jī)制還沒(méi)被研究明白

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

大家要不然直接棄用性別偏見(jiàn)明顯的模型——

2018年,亞馬遜注意到用來(lái)自動(dòng)篩選簡(jiǎn)歷的模型存在對(duì)女性求職者的歧視,就把這個(gè)系統(tǒng)雪藏了。

要不,就只能忍受性能下降。

難道說(shuō)想讓AI不再是失足AI、問(wèn)題AI,AI就一定會(huì)失了智嗎?

清華&復(fù)旦的研究對(duì)此說(shuō)No

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

他們研究的領(lǐng)域是預(yù)訓(xùn)練語(yǔ)言模型

這是因?yàn)樗诟鞣NNLP任務(wù)里顯示神通,有很多實(shí)踐場(chǎng)景。

當(dāng)有性別偏見(jiàn)的它被用在在線廣告、自動(dòng)簡(jiǎn)歷篩選系統(tǒng)、教育等社會(huì)工作中時(shí),可不太妙。

研究提出了AI性別偏見(jiàn)起源的理論框架,因果框架,用來(lái)解釋在預(yù)訓(xùn)練過(guò)程中,數(shù)據(jù)不平衡是怎么導(dǎo)致模型的性別偏見(jiàn)的。

他們把預(yù)訓(xùn)練模型在執(zhí)行特定預(yù)測(cè)任務(wù)時(shí)的性別偏見(jiàn)進(jìn)行如下定義:

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

其中,M是模型,Y是要用M預(yù)測(cè)的單詞,B是M的性別偏見(jiàn)程度。

Y0|W是ground truth,作為男性相關(guān)單詞或女性相關(guān)單詞的概率為二分之一,Y|W是M的預(yù)測(cè)。

如果M的預(yù)測(cè)Y不平衡且分布在性別之間,則模型M在根據(jù)w預(yù)測(cè)Y0時(shí)存在性別偏見(jiàn)。

在預(yù)訓(xùn)練過(guò)程中,優(yōu)化算法會(huì)根據(jù)預(yù)訓(xùn)練數(shù)據(jù)D確定嵌入部分和K中的參數(shù)。

因此,數(shù)據(jù)不平衡D誤導(dǎo)模型得到了不正確的參數(shù)。

比如,訓(xùn)練數(shù)據(jù)中的“醫(yī)生”一詞更常與男性詞匯相關(guān),模型就會(huì)想當(dāng)然地將“醫(yī)生”和“性別男性”聯(lián)系起來(lái)。

看到這個(gè)三角形沒(méi),咱用它來(lái)解釋一下,為啥現(xiàn)在的方法糾正AI會(huì)讓它變笨。

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

當(dāng)應(yīng)用預(yù)訓(xùn)練模型,根據(jù)W預(yù)測(cè)Y時(shí),模型首先將W轉(zhuǎn)換為提取的X,然后根據(jù)X和K來(lái)確定Y的均值。

由于潛入部分的參數(shù)具有誤導(dǎo)性,W被轉(zhuǎn)換為不正確的X,而K也是不正確的。

一頓操作下來(lái),錯(cuò)誤的X和錯(cuò)誤的K,一起導(dǎo)致Y出錯(cuò)。

這些錯(cuò)誤及其相互作用,通過(guò)三個(gè)潛在機(jī)制導(dǎo)致性別偏見(jiàn)。

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

也就是說(shuō)到了這一步,性別偏見(jiàn)就產(chǎn)生了。

而目前教育AI的去偏方法是怎么運(yùn)作的呢?

目前所有的去偏方法都干預(yù)了三種機(jī)制中的一種或兩種。

具體如下:

  • 增強(qiáng)對(duì)D的數(shù)據(jù)干預(yù),并在所有三種機(jī)制中進(jìn)行干預(yù)。

  • 通過(guò)消除X在K中的性別空間上的幾何投影,切斷了D→X→K→Y的路徑。

  • 性別平等正則化方法要么扭曲了D與X的關(guān)系,要么扭曲了D與K的關(guān)系,因此這類(lèi)方法干預(yù)了D→X→Y和D→X→K→Y的機(jī)制。

在解釋了當(dāng)前去偏方法中存在的偏見(jiàn)-性能困境后,團(tuán)隊(duì)嘗試提出一種微調(diào)方法。

他們發(fā)現(xiàn),三種機(jī)制中,有且僅有D→X→Y這種在導(dǎo)致性別偏見(jiàn)時(shí),與transformer無(wú)關(guān)。

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

如果微調(diào)方法僅僅通過(guò)D→X→Y糾正偏差,就可以在減少性別偏見(jiàn)的同時(shí),保持模型的性能。

根據(jù)分解定理,團(tuán)隊(duì)進(jìn)行了數(shù)值實(shí)驗(yàn)。

結(jié)果證明,這種方法能夠帶來(lái)雙重紅利

減少部分性別偏見(jiàn),同時(shí)避免性能下降

經(jīng)過(guò)實(shí)驗(yàn),團(tuán)隊(duì)成員把AI性別偏見(jiàn)的來(lái)源定位于預(yù)訓(xùn)練模型的兩個(gè)架構(gòu):詞嵌入和轉(zhuǎn)換。

據(jù)此,研究團(tuán)隊(duì)提出C4D方法,即通過(guò)調(diào)整標(biāo)記嵌入來(lái)減少性別偏見(jiàn)。

這個(gè)方法的核心思想是通過(guò)修正被誤導(dǎo)的X,來(lái)縮小TDE函數(shù),從而減少總偏差。

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

雖然團(tuán)隊(duì)也不知道正確的標(biāo)記嵌入到底該是啥,但是他們開(kāi)發(fā)了一種基于梯度的方法,來(lái)推斷潛在的ground truth。

一切就緒,團(tuán)隊(duì)將C4D方法應(yīng)用于GPT-2試驗(yàn)去偏結(jié)果。

結(jié)果表明,在所有測(cè)試方法中,C4D方法在小、中、超大型GPT-2上的困惑度都是最低。

在大型GPT-2中,C4D的困惑度排第二,只比最高分差了0.4%。

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

而且,得分最高的方法,對(duì)性別歧視的去偏效果低于C4D。

在GLUE數(shù)據(jù)集上,C4D方法獲得了最高平均分。

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

這表明,C4D可以明顯地減少性別偏見(jiàn),并保持模型性能

聽(tīng)了這么多理論方面的介紹,來(lái)看個(gè)圖例直觀感受一下。

下面三張圖中,藍(lán)色的點(diǎn)代表潛入的男性偏見(jiàn),紅點(diǎn)代表女性偏見(jiàn)。

圖(a)是AI本來(lái)的理解;圖(b)是人類(lèi)無(wú)目的一通謾罵后,嚇笨了的AI的理解;圖(c)是人類(lèi)找到原因,耐心講解過(guò)后AI的理解。

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

在圖(b)和(c)中,男性偏見(jiàn)和女性偏見(jiàn)的嵌入更加集中,這意味著偏見(jiàn)的水平較低。

同時(shí)可以注意到,圖(c)中的嵌入仍然保持了圖(a)中的拓?fù)浣Y(jié)構(gòu),這也是C4D方法能夠保持模型性能的原因。

“盡管這個(gè)方法可以有效緩解語(yǔ)言模型中AI對(duì)性別的偏見(jiàn),但仍不足以完全消除。”

——研究者人員如實(shí)指出這個(gè)問(wèn)題。

若想在不降低AI性能的條件下,進(jìn)一步糾正AI的偏見(jiàn),還要更好地理解語(yǔ)言模型的機(jī)制

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

那怎樣才能更好地理解?

一方面,是用本研究提出的“C4D方法”再去測(cè)試一下AI身上的其他偏見(jiàn)。

本實(shí)驗(yàn)的主要研究對(duì)象是:職場(chǎng)上的性別偏見(jiàn)。

而實(shí)際上,由于AI之前不斷學(xué)習(xí)各種信息,屬于來(lái)者不拒的那種,結(jié)果一不小心,還染上了宗教歧視、嫌黑愛(ài)白等社會(huì)固有的毛病……

所以,不妨去GPT-2上再測(cè)測(cè)去除其他偏見(jiàn)的最終效果。

另一方面,可以把“C4D方法”放到多種大模型上試試。

除了本研究用到的GPT-2,例如谷歌開(kāi)發(fā)的NLP經(jīng)典預(yù)訓(xùn)練模型BERT,也是一個(gè)不錯(cuò)的測(cè)試場(chǎng)景。

不過(guò)要移植到其他模型的話,需要重新生成校正模板,并且可能要用到多變量TDE(Template Driven Extraction)函數(shù)。

通過(guò)運(yùn)用TDE函數(shù),你可以直接將內(nèi)容放入索引,而不需要修改文檔結(jié)構(gòu)。

有網(wǎng)友抱著狗頭來(lái)了:

挽救失足AI,不能光靠打罵 | 清華復(fù)旦新研究

總體來(lái)說(shuō),走進(jìn)社會(huì)變成“失足AI”不可避免。

但想要“失足AI”浪子回頭,找對(duì)方法,給它講道理,還是會(huì)有不錯(cuò)效果滴~

另外,研究團(tuán)隊(duì)成員之一,清華大學(xué)的于洋在個(gè)人微博上表示,過(guò)兩天還有個(gè)關(guān)于AI模型性別歧視查詢(xún)的網(wǎng)站會(huì)上線。

可以期待一下!

論文地址:https://arxiv.org/abs/2211.07350參考鏈接:https://weibo.com/1645372340/Mi4E43PUY#comment

本文來(lái)自微信公眾號(hào)“量子位”(ID:QbitAI),作者:關(guān)注前沿科技,36氪經(jīng)授權(quán)發(fā)布。

資深作者量子位
0
消息通知
咨詢(xún)?nèi)腭v
商務(wù)合作