ChatGPT4的超高“智力”,依靠什么來養成?
在ChatGPT的GPT-3.5推出的第105天之后,它的新“大腦”GPT-4已經把美國的模擬律師資格考試考到前10%了,并且順利的在美國高考題(SAT考試)中,拿到了進入哈佛大學的成績。
ChatGPT怎么變聰明了?依靠的是什么?
GPT-4的成績單(圖來源于網絡)
今天A君想要和大家簡單聊聊,關于ChatGPT的“大腦”運作的關鍵。
ChatGPT中被大家關注最多的語言能力,其實就是GPT的語言模型。最近新推出的GPT-4,就相當于這個AI的“大腦”。
而這個新的大腦要比GPT-3.5的更加“大”,單詞輸出限制提高到了25000個單詞。“神經元”(計算系統)更多,能計算識別更多的文字內容,甚至是圖片內容,所以“智力”也就更高。
當ChatGPT的“大腦”工作時,大腦中的“神經元”就會運作,也就會產生數據參數,而更多的參數產生,往往就會帶來更精細的結果。
普通計算機處理數據的CPU(圖片來源網絡)
2018年的GPT,參數量是1.17億。
2019年的GPT-2,參數量是15億。
2020年的GPT-3,乃至后來基于GPT-3.5的ChatGPT,參數量是1750億。
2023年最近發布的GPT-4,雖然官方沒有公布具體參數量,但一定是千億級別的參數量。
當我們在和AI進行互動且拋出問題的時候,屏幕那邊的ChatGPT,是怎么做這道題的?
比如我們在對話框里問AI:“AI的智力是什么水平?”
作為一個人工智能,ChatGPT從一開始答題的思路,會和我們一樣:先看問題。
但是看完后,它會把這個問題分解、排列。再去網上抓數據對比,看看都有哪些地方出現了“AI的智力”相關的內容。
同時再用它那上億個參數的“腦子”分析計算,正確內容的可能性。把所有搜集到的數據,根據上下文,進行新的排列、組合,最后把概率最高的答案選出來,在對話框里回復你。
所以你以為人工智能在利用它的智慧回答你,其實它在用它的“體力”來回答你。
在一個足夠大的數據庫中,它會用最快速的方式,把可能性最高的答案找出來。
所以一個聰明的AI,一定是能在單位時間內,做足夠多的事情。(AI比人卷太多了)
而人干一天活,消耗三頓飯,AI干一天的活,要消耗多少的算力?
簡單來說,當AI的那顆上千億級別參數“大腦”運轉起來的時候,可能要花掉北上廣深的幾套房子。(全是鈔能力)
一些服務器的樣貌(圖片來源網絡)
比如Open AI,微軟專門為其打造了一臺超級計算機,用來在公有云上訓練超大規模的人工智能模型。其中這臺超級計算機擁有28.5萬個CPU核心,超過1萬顆GPU。
以目前比較主流的英偉達A100芯片為例,一顆價格約8萬元。每顆8萬元,一共要1萬顆,光是芯片的花費,就在8億元以上。
圖片來源網絡
所以初步估算,要達到相應的算力,訓練一次的成本:以GPT-3.5為模型的ChatGPT模型,都要460萬到500萬美元。
在國內,云計算技術人士公認的一個說法是,1萬枚英偉達A100芯片是做好AI大模型的算力門檻。
據OpenAI測算,自2012年以來,全球頭部AI模型訓練算力需求3-4個月翻一番,每年頭部訓練模型所需算力增長幅度高達10倍。
但,與此同時,這種算力快速的增長的需求也必將對傳統的摩爾定律形成沖擊:
摩爾定律認為:芯片計算性能大約每18-24個月翻一番,因此兩者間的不匹配勢必將帶來對算力基礎設施需求的快速增長。
相比之下,AI算力需求主要拆落到訓練和推理兩個主要方面:
1、訓練方面:根據OpenAI訓練集群模型估算結果作為參考,1746億參數的GPT-3模型大約需要375-625臺8卡DGX A100服務器(對應訓練時間10天左右),對應A100 GPU數量約3000-5000張。
2、推理方面:以A100 GPU單卡單字輸出需要350ms為基準計算,假設每日訪問客戶數量為2,000萬人,單客戶每日發問ChatGPT應用10次,單次需要50字回答,則每日消耗GPU的計算時間為972,222個運行小時,對應的GPU需求數量為40,509個。
而這一切,還沒有包括每天都要用掉的幾萬美金電費,和線下需要購買“機房”的成本。比如算力和數據的成本,就要近20億元人民幣。
而GPT-4, 作為“更聰明”的“大腦”,算力成本又是一個新的臺階。這些,全部都是“聰明”的價格,也是使用高性能計算要付出的成本。
最后提一嘴:我們青椒云云桌面,也可以用來做AI“大腦”的部署,所以青椒云桌面=半個AI“大腦”,使用青椒云=使用“人工智能” 哈哈哈哈哈哈哈哈哈~