国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

<ul id="y8my2"><pre id="y8my2"></pre></ul>

OpenAI 驟然關(guān)停 AI “打假”工具，官方承認：準確率過低

CSDN

+ 關(guān)注

2023-07-27 15:16

1.1w次閱讀

不少網(wǎng)友都表示支持。

回想 ChatGPT 剛爆火那陣，它卓越的生成能力令不少行業(yè)“又愛又恨”。

以教育界為例，學生熱衷于在 ChatGPT 的幫助下完成作業(yè)，教師們卻頭疼于無法杜絕學生用 ChatGPT 作弊的行為。在這一趨勢下，今年 1 月美國紐約市教育部曾正式宣布：紐約市的學生和教師，無法再在教育部設(shè)備或互聯(lián)網(wǎng)上訪問 ChatGPT。

或許是為了應對這日益擴大的輿論矛盾，OpenAI 在今年 1 月底重磅推出了一款新 AI 工具 AI-Text-Classifier（AI 文本分類器），旨在用來識別 AI 生成的文本內(nèi)容。

OpenAI 驟然關(guān)停 AI “打假”工具，官方承認：準確率過低

不曾想，這個新 AI 工具誕生還不滿半年，就已被 OpenAI “偷偷”關(guān)停了——而 OpenAI 官方后續(xù)給出的理由是：AI Classifier 的“準確率太低”。

OpenAI 驟然關(guān)停 AI “打假”工具，官方承認：準確率過低

剛推出時，OpenAI 就提醒：不可靠

實際上，在 OpenAI 剛推出這款 AI 文本分類器時，就承認過它“并不可靠”：“我們訓練了一個分類器來區(qū)分人類撰寫的文本和 AI 撰寫的文本，但這個分類器并不完全可靠。”

據(jù)了解，AI Classifier 是一個語言模型，基于同一主題下人工編寫文本和 AI 編寫文本對數(shù)據(jù)集上進行的微調(diào)。OpenAI 將由人類編寫的各種來源集成到這個數(shù)據(jù)集，例如預訓練數(shù)據(jù)和提交給 InstructGPT 的人類演示等。然后 OpenAI 再將把每個文本分為提示和響應，研究人員根據(jù)這些提示，讓各種不同的語言模型產(chǎn)生響應，以此來不斷訓練這款 AI 文本分類器。OpenAI 特別強調(diào)：只有在 AI Classifier 非常有把握的情況下，才會將文本標記為“可能是 AI 編寫的”。

針對這款 AI 文本分類器，OpenAI 在官宣博客中并沒有介紹其詳細原理，但給出了實驗測試結(jié)果：在對英語文本內(nèi)容進行測試時，AI Classifier 能正確識別 26% 的 AI 內(nèi)容，顯示“可能由 AI 編寫”的建議參考，但同時也會把 9% 的人類編寫內(nèi)容“誤判”為 AI 生成的內(nèi)容。

對于 OpenAI 提供的這個數(shù)據(jù)，當時洛桑聯(lián)邦理工學院教授 Marcel Salathé 還專門進行了計算：假設(shè)一所大學有 1000 名學生被要求寫一篇文章，其中 3% 的人試圖用 ChatGPT 來生成文本，即其中會有 30 個 AI 生成的文本和 970 個人類生成的文本。

但根據(jù) AI Classifier 的測試數(shù)據(jù)結(jié)果，將出現(xiàn)以下情況：首先，在 970 個人類生成的文本中，會有 9%（即 87 個）被錯誤地標記為 AI 生成的；其次，在 30 個 AI 生成的文本中，會有 26%（即 8 個）被正確標記為 AI 生成的。

也就是說，如果老師用 AI Classifier 來識別學生的文章，共會有 95（87+8）個文本被標記為 AI 生成——但實際情況是，其中只有 8 個是 AI 生成的，而 87 個自己寫文章的學生會被 AI Classifier “誤傷”。

存在不少局限性

平心而論，AI Classifier 的這個正確率確實不太可觀，因此當時 OpenAI 也主動提醒道：“我們的分類器有一些重要的局限性，它不應作為主要的決策工具，而應作為確定文本來源的方法補充。”

具體來說，AI Classifier 有以下 6 種局限性：

（1）在處理短文（1000 字以下）時非常不可靠，但即使是較長的文本，有時也會被分類器錯誤標注。

（2）有時，人類撰寫的文本會被分類器“錯誤而自信地”標注為 AI 撰寫的文本。

（3）建議僅在英文文本中使用該分類器，因為它在其他語言中的表現(xiàn)要差得多，在代碼中也不太可靠。

（4）無法可靠地識別可預測性很強的文本。例如，分類器無法預測前 1000 個質(zhì)數(shù)的列表是由 AI 還是人類寫的，因為正確答案總是一樣的。

（5）AI 寫的文本可以被二次編輯，從而躲過分類器的檢測。

（6）基于神經(jīng)網(wǎng)絡的分類器在訓練數(shù)據(jù)之外的校準效果總是很差。對于與訓練集中的文本有很大差異的輸入，分類器有時會很自信地做出錯誤標注。

盡管正確率不高，局限性也較多，但 OpenAI 在推出 AI Classifier 時，還是表示：“我們相信，好的分類器可以為減少 AI 生成文本是由人類撰寫的虛假說法”，“與我們之前發(fā)布的分類器相比，AI Classifier 在處理來自最新 AI 系統(tǒng)的文本時可靠性明顯有所提高。”

網(wǎng)友支持關(guān)停的決定

然而，與半年前剛發(fā)布 AI Classifier 時的高調(diào)自信不同，OpenAI 關(guān)閉 AI Classifier 的決定很“低調(diào)”，甚至絲毫沒有提前通知就突然關(guān)停了。

當用戶們面對打不開的頁面一頭霧水、官方也沒相關(guān)回應時，終于有人在半年前 OpenAI 發(fā)布 AI Classifier 的博客中，找到了藏在其中的添加注釋：

由于準確率較低，截至 2023 年 7 月 20 日，AI Classifier 已不再可用。我們正在努力采納反饋意見，目前正在研究更有效的文本出處技術(shù)，并承諾開發(fā)和部署相關(guān)機制，使用戶能夠了解音頻或視頻內(nèi)容是否由 AI 生成。

雖然有些突然，但結(jié)合近半年來各類 AI 文本檢測器的表現(xiàn)來看，OpenAI 做出這個決定或許并不意外。

不論是 OpenAI 的 AI Classifier，還是斯坦福大學的 DetectGPT，亦或是大學生研發(fā) GPTZero 等 AI 檢測工具，其定位都是用來區(qū)分文本究竟是由人類撰寫的還是由 AI 生成的，而它們的失誤率也都高得驚人。

此外，在仔細研究了檢測大型語言模型生成的文本后，美國馬里蘭大學的計算機科學家 Vinu Sankar Sadasivan 也坦言：即使是用最好的檢測器來檢測 AI 生成的文本，概率并不比扔硬幣進行判斷好到哪里去。

因此對于 OpenAI 突然關(guān)停 AI Classifier 的這個決定，不少網(wǎng)友都表示支持：

? “雖說少了一個公告，但我很高興 OpenAI 這么做了。現(xiàn)在很多人都以為只要僅憑幾句話就能檢測出是否是 AI 寫的，但實際上根本就沒人能保證這一點。”

? “很好，如果它確實不可靠，那它存在的意義就弊大于利了。”

? “關(guān)的好！你們都不知道，因為這個工具，學術(shù)界出現(xiàn)了大量的虛假指控。”

參考鏈接

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text

https://decrypt.co/149826/openai-quietly-shutters-its-ai-detection-tool

本文來自微信公眾號“CSDN”（ID:CSDNnews），作者：鄭麗媛，36氪經(jīng)授權(quán)發(fā)布。

[免責聲明]

原文標題： OpenAI 驟然關(guān)停 AI “打假”工具，官方承認：準確率過低

本文由作者原創(chuàng)發(fā)布于36氪企服點評；未經(jīng)許可，禁止轉(zhuǎn)載。

0

最新文章

關(guān)注 36氪企服點評公眾號

打開微信掃一掃

為您推送企服點評最新內(nèi)容

消息通知

咨詢?nèi)腭v

商務合作

<samp id="2ci22"></samp>

<kbd id="2ci22"><pre id="2ci22"></pre></kbd>

<th id="2ci22"></th>