国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

少數派
+ 關注
2023-07-20 13:45
1.2w次閱讀
ChatGPT,或者說是各種 GPT 產品以及它們的衍生應用,熱度確實是火爆到不行。

編注:「萬字解析」是體驗少數派付費欄目內容的最佳方式。我們希望用一萬字的篇幅,系統、深度地分享有價值的內容,讓少數派讀者可以享受獲得新知的愉悅。

本期「萬字解析」內容選自《 生產力超頻:成為 ChatGPT 全域調教高手 》。《 生產力超頻:成為 ChatGPT 全域調教高手 》以 GPT 原理為基礎,分享 Prompt 優化方法和使用技巧。兼顧理論與實操,借助 ChatGPT 的力量,成為自己行業中先進入未來的人。

GPT,是的,你又看到了這個詞,我猜這已經你最近看到的第 N 次。

ChatGPT,或者說是各種 GPT 產品以及它們的衍生應用,熱度確實是火爆到不行。無論在哪兒你都能看到鋪天蓋地,各式各樣對 GPT 的討論,熱門程度基本覆蓋了各行各業和不同階層的人。也不愧有人說它是真正的時代革命,因為 AGI(通用型人工智能)已經、正在、將要影響我們每個人的人生軌跡。

隨著廣泛的討論,我們已經可以在互聯網上看到很多 GPT 有趣的用法,GPT 產品也層出不窮。但是除了讓它變成主人專屬的貓娘、與弱智吧問題大戰 300 回合、或者想方設法繞過限制找出 bug、無腦叫囂著自己要失業以外,大家更應該看到這背后將要出現的各種改變,以及 AGI 對自己、對整個世界的影響,正視它,了解它,掌握它,讓它變成自己生活工作中更強的助力,讓自己更加適應即將到來的新世界。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

GPT4.0 對于這個世界未來的寄語

在各種 GPT 相關的視頻文章底下,大眾對于 GPT 類人工智能兩極分化的觀點,可以從中窺探一二:

有些人惶惶不可終日,認為 GPT 明天就能改變世界,推翻一切舊秩序;而有些人則滿不在乎,認為這不過是一些奇技淫巧,只是一個搜索引擎以及數據庫集合罷了。甚至有人認為背后其實是很多個客服在打字 —— 不開玩笑,是真的有人這樣認為。

不管你是同意與否,時代的車輪正在滾滾而來,并且終將碾壓舊時代,就像是之前的蒸汽機器時代、計算機時代、互聯網時代,而這個時代叫做 —— AGI(通用人工智能)。如果你將通用型人工智能看成之前那些改變時代的東西,相信能更好地感受到現在和之前時代來臨中的眾生相:有人畏懼,有人激動,有人鼓吹,有人批判,有人學習,有人用它助自己一臂之力,也有人反抗,不一而足。

就像是馬車車夫面對福特汽車,紡織女工面對紡織機,上面提到的對 GPT 的認知都是不全面的,而造成這些不全面認知的原因,就是大部分人并沒有真正了解,或者使用過 GPT,只是憑著自己的人生經驗以及人生觀去猜測它「是什么」 —— 這倒是和 GPT 本身的原理十分相像

就像是把無人機當成神明的原始部落,對通用型人工智能手足無措,乃至恐懼抵觸也就不足為奇。

如同其他新時代的出現,你我每一個普通人在 AGI 時代中所需要做的,就是正視通用型人工智能,學習它的原理,找準自己在這個時代中的新定位。不管什么時候,只要做好準備,任何時代都無可畏懼,并保持激動樂觀的心態迎接各種前所未見激動人心的新事物。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

逐漸活躍的 AGI 行業就業市場

俗話說,知己知彼,才能百戰不殆,知其然,更要知其所以然。無論你是人工智能的支持者,想用現在大火的各種 GPT 工具來幫助自己,還是人工智能的反對者,想找出 GPT 的缺陷和危害,首先要做的就是客觀地了解它。

我算是很早接觸到 NLP 這個領域,并且在 GPT 剛被提出來的時候,就開始了解這個概念。據我的經驗來看,中文互聯網上關于 GPT 模型的資料一直較為匱乏,直到現在 ChatGPT 被大眾廣泛認知,相關的資料數量和質量才開始增長。

但直到現在,如果大家想了解 GPT 是什么,怎么用好它,中文互聯網上還是很難找到足夠的相關資料,讀者需要從眾多虛假主觀信息中,找到自己想要的內容。而且這些資料大多要么有著一定的獲取門檻,要么就是不太準確客觀,要么就是已經假定讀者有一定的基礎,理解難度較高。普通讀者要么去啃生硬的論文,學習很多前置知識,要么只能得到一些片面的了解。

本欄目開始的內容,就是要讓讀者能夠以比較少的基礎,去輕松理解 GPT 的原理以及它的上下限。

如果你希望得到更多權威客觀的 GPT 領域論文和資料,我會在本文最后放上一些官方、有權威性與可信度的論文以及文章。

先導概念:用生活經驗理解 GPT

在繼續往下討論 GPT 的根本原理和機制前,我們先來熱身一下。對于大部分沒有接觸過人工智能領域的讀者,可以利用自己的生活經驗,嘗試理解下面這個例子,在詳細解釋原理之前,能對「GPT 大概是什么」快速產生比較感性的理解。

想象 GPT 是一位語言天才,他擅長制作一種特殊的串聯詞語游戲。這個游戲的目標是在給定的起始詞匯后,找到一系列相關的詞匯,每個詞匯之間都有一定的聯系。GPT 通過大量閱讀和學習,了解了詞匯之間的各種關系和搭配。

當你向 GPT 提問時,它會像在進行這個串聯詞語游戲一樣,從你的問題出發,尋找與問題相關的詞匯和信息。然后,GPT 會按照邏輯順序和語法規則,將這些詞匯串聯起來,形成一個完整的回答。

例如,你問 GPT:「蜜蜂是如何釀造蜂蜜的?

GPT 會從問題中提取關鍵詞「蜜蜂」和「蜂蜜」,并根據自己的知識,找到與這些詞匯相關的其他詞匯,比如「花粉」「蜜腺」和「蜂巢」。接著,GPT 會按照正確的語法和邏輯關系,將這些詞匯組織成一個完整的回答:

「蜜蜂通過采集花蜜,將其儲存在蜜腺中。在蜜腺內,花蜜逐漸變成蜂蜜。之后,蜜蜂將蜂蜜運回蜂巢,儲存在蜂巢的蜜脾中」

這個例子展示了 GPT 如何從輸入的問題中提取關鍵信息,并根據自己的知識和經驗生成相關的回答。這是一個比較籠統的解釋,想必現在你的心里肯定會有很多疑問,沒關系,接下來就讓我們帶著這些疑問,來詳細了解 GPT 是如何實現這些神奇效果的。

科學家如何解釋 G,P 和 T?

無論是 AI 還是任何領域的事物,一般這類技術從名字就可以看出來它的原理和技術。

那么按照慣例,我們先從 GPT 的命名上來看一下它的原理:

GPT是「Generative Pre-trained Transformer」的縮寫,意為生成式預訓練變換器。接下來,我們先看看傳統技術流方式如何解釋 G、P、T 三個字母所代表的含義:

G 代表 Generative(生成式):這是一種機器學習模型,其目標是學習數據的分布,并能生成與訓練數據相似的新數據。在自然語言處理(NLP)領域,生成式模型可以生成類似于人類所寫的文本。GPT模型作為一個生成式模型,能夠根據給定的上下文生成連貫的文本。

P 代表 Pre-trained(預訓練):預訓練是深度學習領域的一種常見方法,通過在大規模數據集上進行訓練,模型學習到一般的知識和特征。這些預訓練的模型可以作為基礎模型,針對具體任務進行微調。GPT模型通過預訓練,在無標簽的大規模文本數據集上學習語言模式和結構,為后續的任務提供基礎。

T 代表 Transformer(變換器):Transformer 是一種在自然語言處理中廣泛使用的神經網絡結構。它通過自注意力(Self-Attention)機制有效地捕捉上下文信息,處理長距離依賴關系,并實現并行計算。GPT模型采用Transformer結構作為基礎,從而在處理文本任務時表現出優越性能。

怎么樣?是不是每一個字都認識,但是連起來就完全懵逼?都不用打開具體的論文,單就從技術上解釋這項技術的名字,就足夠勸退大部分人,這就是大部分迫切想要了解這一新事物的讀者面臨的窘境。

但是沒關系,下面我會舉一個形象的例子來說明 GPT 的原理,保證每一個人都看得懂。

形象的 GPT 原理解析

前面兩個字母的含義都比較容易理解:

G(生成式)

生成式模型就是通過學習對應內容的規則和形式,然后生成符合要求的內容

比如 GPT 就是學習大量的人類文本,了解到什么樣的文本內容對人類來講是合理的,然后生成我們人類認為通順有意義的文本內容。另一個同樣火爆的 Diffusion 模型,則是學習大量的人類圖像內容,然后生成我們人類認為合理的圖像。

大家可以把簡單把 AI 本身理解為我們應該都很熟悉的一次函數,只不過擁有很多參數:

y = (w1 * x1 + w2 * x2 + w3 * x3 + ……) + b

x 可以看出我們輸入給 AI 的內容,w 我們已經得到的參數,b 是一個偏置值。

我們所說的 AI 或者說機器學習,學習到某樣東西,就是指 AI 通過參考數據集里面無數的 x 和 y ,經過無數次試錯,得到合適的參數 w1,w2,w3……的值,和一個合適的 b 偏置值,使得我們的輸入 x1,x2……會輸出貼近我們最終要求的 y。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

一個形象展示 AI 如何學習的動圖

更形象一點形容,每一個參數都可以看作是 AI 學到了某一種規律或者規則,比如學到 1 后面的數字是 2,或者狗是一種有毛的東西,參數越多,AI 能夠學習到的規律和規則,自然也就越多。

GPT3.5 就擁有超過1750 億的參數,使得無論我們輸入什么內容,AI 都能匹配到相應的規則和模式,輸出(也許是)我們想要的 y。當然這只是非常簡化的情況,實際情況下模型會用到很多其他的技術,具體的原理也會十分復雜。具體的技術可以參考本文最后的文章列表。 

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

來自 AI 的認可

【打破誤區】:很多人認為,這種底層的數學邏輯,讓 AI 從根本上無法誕生意識,這其實是不全面的。

當前,按照目前的技術路線,這些模型本質上仍然是通過一系列復雜的數學函數和訓練數據學習映射關系,最多可能作為未來新技術路線可能的探索,目前人工神經網絡與生物神經網絡的結構和計算方式還是存在著明顯區別,人工神經網絡在許多方面更簡化,真實的生物神經網絡會有更多復雜的特征和連接。

不過人類的智能之所以誕生,很大程度上離不開我們大腦里面神經元復雜的數量和信息傳遞,但神經活動底層本質上仍然是電信號的簡單傳遞。到后面我們會了解到 AI 的「涌現」特性,展現了數學邏輯其實也有可能是另一種「神經活動」的基礎,只不過之前的機器學習模型規模限制導致無法產生自發的「涌現」。

P(預訓練)

預訓練其實也很好理解,就是上面 AI「學習」得到 w1、w2……和 b,也就是總結一般規律的過程。

而訓練集就是我們收集喂給 AI 的大量數據,在這個過程中數據的數量和質量同等重要。數量不夠,AI 便無法得出正確的參數值;質量不夠,AI 得到的參數值是生成的內容,可能和我們要求相差甚遠。

GPT 模型并不算一個很新的概念,而之所以 GPT3.5 和 GPT4 效果突然突飛猛進,離不開 OpenAI 在數據集上下的功夫。

首先是數據準備:在訓練和微調GPT模型之前,需要收集大量的文本數據。這些數據可能來自各種來源,如網頁、書籍、新聞文章等。數據的質量和多樣性對模型的表現至關重要。原始數據需要經過預處理,以消除噪音并使其適用于訓練。預處理步驟可能包括去除特殊字符、分詞、去除停用詞等。這部分會決定最后的模型有多「通用」。

然后是用上一些數據集能夠提升模型生成效果的手段,這里簡單列舉兩個:

掩碼機制:在預訓練階段,GPT 會采用到掩碼語言模型(Masked Language Model,MLM)的策略(GPT3/4 本身是基于自回歸機制 CLM)。在這個過程中,輸入文本的一部分會被隨機替換成特殊的掩碼符號,模型需要根據上下文信息預測被掩碼的詞。這有助于模型學習更好地理解上下文,并提高預測能力。

微調:GPT的預訓練階段學到的是通用的知識和語言特征。為了使模型在特定任務上表現得更好,需要對其進行微調。微調是指在有標簽(需要人工給數據添加標注)的小規模數據集上繼續訓練模型,使其適應特定任務。這種方法可以顯著提高模型在特定領域的性能。在訓練和微調過程中,人工干預可能包括選擇合適的超參數,如學習率、批量大小、層數等。這些參數會影響模型的性能和訓練時間。

GPT 本身訓練用到的數據集數量龐大,只有微調的一小部分是人工標注,也是一種無標注訓練。除了這些,還有很多不同的手段來保證最終的訓練效果,GPT4 甚至是混合了多個不同模型(非官方信息源)。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

標注訓練數據的例子,著名的 AI 標注工具 Labelbox

最后就是根據各種評估方案對結果進行評估,然后再根據評估內容進一步微調優化。

【打破誤區】:很多人認為由于 AI 的數據集全都是由人類提供的,所以 AI 無法產生超越數據集質量的內容。比如 Diffusion 模型生成的圖片比不上頂級的藝術家,就是大眾比較廣泛接受的觀念。這也是一個目前正確但不全面的觀念。

其實我們可以參考圍棋 AI 阿爾法狗(Alpha Go),在 AI 產生的內容達到特定數量后,便會到達某種奇點,在之后 AI 便可以用自己產生的數據來迭代訓練自己,而不會影響甚至能提高最終生成結果的質量。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

Alpha Go 的自訓練過程

但值得注意的是,圍棋這個特定領域的規則是明確且固定的。在其他更復雜、或涉及主觀審美的領域,AI 用自己生成的數據訓練自己會明顯遇到更多的問題,所以在很多人工智能已經有明顯優勢的領域,依然會有機構和科學家研究「程序化」的方法。比如最近很火的用數學方式生成世界數據的項目 INFINIGEN(項目特別標注了 NO AI),很大一部分的用途就是將生成的數據用于 AI 訓練,目前這種訓練集的質量是會比 AI 自己生成的訓練集好很多的。

最重要的原理:T(變換器)

請先無視這個很爛的翻譯,我們終于來到了 GPT 最重要的部分,它可以說是 GPT 的核心機制,也是 GPT 讓大部分人驚嘆的「理解能力」的核心原理。

大家應該能夠發現,使用 ChatGPT 或者 NewBing 等服務時,AI 的回復都是一個字一個字蹦出來的,有時候網不好還會卡一下,然后蹦很多個字。另外當生成內容過長的時候,AI 往往還會卡在某個詞中間,而不是把這個詞生成完成。但是當我們輸入繼續的時候,GPT 又能很聰明地接上剛剛中斷的地方,甚至寫一半代碼的也沒有問題。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

AI 生成長內容往往會斷得很奇怪

有些聰明的讀者可能就想到了,沒錯,GPT 生成是以字符為單位的,并沒有嚴格的單詞句子概念,OpenAI 收費也不是用詞而是 Token 作為單位。也就是說GPT 的運作原理,其實是在根據之前的內容,結合自己學到的規律,「猜」下一個字符大概率是什么

但是猜也不能亂猜,必須是有依據的。而上面提到的簡單模型,無論有多少個參數,都很難解決現實世界中理解自然語言的無數問題:不同語言的語法差別,一詞多義,錯別字,語序混置,詞義挪用甚至還有自造詞句(比如 Emoji 陰陽怪氣等)……

這時就輪到我們的 T 出場了,Transformer 是一種神經網絡結構,它利用了自注意力(self-attention)機制和多層編碼器(encoder)與解碼器(decoder)層,從而有效地處理長距離依賴關系和捕獲不同層次的文本信息。

Transformer 解決的問題,就是 AI 如何快速準確地理解上下文,并且以通用且優雅、簡潔的方式。而「注意力機制」就是解決這個問題的關鍵。

自注意力機制:自注意力是一種計算文本中不同位置之間關系的方法。它為文本中的每個詞分配一個權重,以確定該詞與其他詞之間的關聯程度。通過這種方式,模型可以了解上下文信息,以便在處理一詞多義和上下文推理問題時作出合適的決策。

比如 GPT 如何利用這個機制解決一詞多義的問題:

舉個例子,在中文中,「球」可以表示很多含義,比如籃球、足球等體育項目中使用的球,也可以表示球形物體。為了理解「球」在特定語境中的具體含義,GPT 需要根據周圍的詞語來加以判斷。

假設有以下兩句話:

小明喜歡踢球,他每天都和朋友們在操場上玩。

地球是一個巨大的物體,我們生活在它的表面。

在第一句話中,與「球」相關的詞語有「踢」「操場」和「玩」,這些詞語表明這里的「球」指的是體育項目中使用的球。而在第二句話中,與「球」相關的詞語有「地球」「物體」和「表面」,這些詞語表明這里的「球」是指一個球形物體。

自注意力機制通過計算這些詞語之間的關系來為每個詞分配權重。在第一個例子中,它會為與體育相關的詞語分配較高的權重;在第二個例子中,它會為與球形物體相關的詞語分配較高的權重。然后,它會根據這些權重生成新的詞表示,從而使模型能夠根據上下文理解「球」的具體含義。

其他自然語言中傳統編程很難處理的問題,也能通過自注意力機制很好地解決。

這就是 GPT 在單個問答中展現出理解能力的原理,但是 GPT3.5+ 能夠被稱為改變世界,優秀的長期記憶能力和多模態數據理解也是其中重要的原因,而「跨注意力機制」就是這個能力的原理。

跨注意力機制:跨注意力是一種計算兩個不同文本序列中各個位置之間關系的方法。它為一個序列中的每個詞分配權重,以確定該詞與另一個序列中的詞之間的關聯程度。通過這種方式,模型可以捕捉到兩個序列之間的相互關系,以便在處理多模態數據、文本對齊和多任務學習等問題時作出正確的決策。

跨注意力機制可以理解為一個智能「篩子」,在處理 AI 對話中長期記憶時,能有效地從海量信息中篩選出關鍵內容,從而快速優雅的實現「讀取相關記憶」。在多個內容中,跨注意力機制可以通過權重來區分不同信息的重要性。我們可以用一個在線客服的例子來解釋這個過程。

假設你是一家電子商務網站的在線客服,需要為顧客解答各種問題。每個顧客的問題和需求都有所不同。跨注意力機制就像是你的智能助手,幫助你區分并快速定位關鍵信息。

當一位顧客詢問關于某件商品的退貨政策時,例如:「我購買的這款手機可以在多長時間內退貨?」跨注意力機制會從你與顧客之前的對話中篩選與「手機型號」相關的信息。為了實現這個過程,跨注意力機制會為每個對話片段分配一個權重。這個權重表示了該對話片段對當前問題的重要性。

在這個例子中,與退貨政策相關的對話片段將被賦予較高的權重,而與其他話題(如商品詳情、支付方式等)相關的對話片段則被賦予較低的權重。跨注意力機制會根據這些權重來篩選出與當前問題最相關的信息,并將這些信息整合起來,以便你能夠為顧客提供準確的回答。

同樣地,在接下來的對話中,如果顧客提出了其他問題,例如關于優惠券使用或者配送時間,跨注意力機制會根據問題的關鍵詞調整權重,幫助你找到與這些問題相關的信息,并提供給你。

通過在用戶對話中使用權重,跨注意力機制可以更好地理解和捕捉上下文信息,從而讓 GPT 讀取長期記憶的能力。

單層注意力機制效果還是不夠,所以實際應用中 GPT 都是通過嵌套多層注意力機制,實現復雜的理解效果。但是注意力機制的權重算法原本就算力消耗巨大,再加上幾層嵌套會讓計算難度,也就是算力指數型增加,越長的對話也會明顯增加算力要求。這也是為什么明明模型已經訓練好了,OpenAI 和微軟還要多次限制用戶的使用量(而且越新的 GPT 版本越慢)。

利用這兩種注意力機制的動態結合,加上龐大的基礎訓練集,以及大成本的人工微調,這才有 GPT3.5 和 GPT4 跨時代效果

【打破誤區】:很多人對 GPT 的另一個常見誤區是 GPT 只是智能搜索引擎,對數據庫里面的內容,按照一定的規律進行拼接。但其實看完上面的內容,大家基本也能明白,GPT 訓練的與其說是內容的規律,不如說是一種復雜到人類無法理解的對內容切分 token 進行權重計算的「算法」。與內容分離,才是 GPT 現在能做到生成這個世界上完全不存在的文本的根本原因。

也正因為如此,GPT 才容易胡說八道——因為它根本不知道自己想要說的是什么,它只是根據注意力機制不斷猜出下一個 Token,直到權重表示內容生成完成。這種內容分離的方式也讓 OpenAI 以及其他現在訓練相關模型的公司,對 AI 胡說八道也沒有很好的辦法,只能通過人工微調和擴展訓練集來緩解。

現在人們總結出來的各種各樣的 AI 使用技巧,AI 「心理學」 之類的理論和方法其實都是基于上面介紹到的原理,甚至像是 Stable Diffusion 等其他領域的 AI ,各種「魔法」咒語技巧方法也是這樣子根據對應模型的原理總結出來的。

GPT 的原理也是本欄目所有使用方法和技巧的理論基礎,大家了解到上面的內容之后,更加容易理解之后介紹到的一些方法技巧的來由。對比起直接介紹方法,可以減少讀者「摸不著頭腦」的不適應感,也能將這些方法系統化,更加容易理解記憶,也能更加熟練地實踐在實際使用中。

那你第一次接觸人工智能產品,特別是內容生成類的產品時,大概率會好奇無所不在的 Prompt 是什么意思,為什么有好多不同的中文表達:有人把它叫做提示詞,有人把它叫做命令,還有的人根據人工智能魔法般神奇又神秘的特點,直接把它叫做咒語。

Prompt 指的是輸入到模型中的一段文字,用于引導模型生成特定類型的回應或輸出。通常,用戶或開發人員會提供一個或多個關鍵字、短語或問題作為 Prompt,然后 AI 模型會基于其訓練數據和算法來理解輸入的語境,并生成相應的回復或文本。在生成回復時,AI會盡可能地保持與所給提示的相關性,同時力求使輸出內容具備連貫性和可理解性。

Prompt 在自然語言處理中起到至關重要的作用,它們幫助模型理解用戶意圖,從而為用戶提供更準確的結果。總而言之,Prompt 是我們與人工智能交流的媒介,我們提交給人工智能的內容就是 Prompt。

【打破誤區】:不管是準備嘗試 GPT,還是已經使用 GPT 在生活中幫助自己,不少朋友應該認為這種對話型人工智能沒有什么學習使用方法的必要。反正都能理解自然語言,直接問就行了唄。

但不說面對 AI,就算是面對真人,對于乙方來講,讓甲方準確地描述出自己的需求,也是一個比較奢侈的需求。能夠準確描述自己的需求,保證提問的質量,甚至比幫你解決問題的人類和人工智能本身的能力高低更加重要。

更別說,目前的 AI 還并不是真正的通用人工智能,并不能真正做到未來科幻片中那種察言觀色甚至帶有高情商與獨特性格的 AI。我們還需要根據 AI 的「性格」(注意,AI 并沒有人們理解意義上的性格,具體原因可以參考前往)組織我們的問題,提高 AI 回復的質量,返回我們想要的內容。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

能夠點進這個欄目的讀者,相信對于 GPT 模型的熱度就不用我再過多介紹了。作為目前首屈一指的 AI 模型,GPT 給大家的直觀印象就是它的「多才多藝」,也就是所有人都在追求的通用。很多人都在說它就是人類通往通用型 AI 的道路開端,但目前 GPT 的能力距離真正的 AGI,其實還有很長的路。

接下來我就給大家簡單介紹一下目前 GPT 的上限和下限,讓大家對 GPT 的能力范圍有一個大概的了解,以及介紹這類 LLM(大語言模型)最令人驚嘆,真正使它擁有無限可能的潛力的現象——「涌現」能力。

讀者也可以結合自身與 GPT 有關的需求得出 GPT 能夠幫助自己的程度。

GPT 的上限

對比起之前出現的各種模型,GPT 有些顯而易見的優勢。

超長文本理解生成能力

這是 GPT 模型最直觀的優勢。之前的模型大多都是簡單文本處理的模型,擁有基礎的分詞能力,專注于單個問題的對答,比如大家手機里面的智能助手。而 GPT 通過注意力機制將理解和生成通順連貫文本的篇幅,提升到之前模型難以望其項背的程度。

大家要注意,現在我們使用的服務通常都有單條對話長度限制,以及對話數量的限制。這不是模型本身的限制,而是我們上面提到的注意力機制使然(當然,也可以說是模型本身的限制)。隨著 GPT 理解和生成的文本數量變長,它的算力要求是直線增長的。

不過現在有類似 Recurrent Memory Transformer(RMT)的架構可以將百萬級 Token 理解的算力壓縮到主流硬件級別,理論上將來 GPT 可以理解無限多的對話內容,生成無限長的文本,這就是 GPT 文本生成的上限。

比如對于 GPT 4 4K 模型而言,你雖然可以用 Prompt 分次塞 16K 內容進去,看起來你輸入了16K 的內容,實際上也只有 4K 會被傳到模型里,剩下的某個規則丟掉其中的 12K 內容。這樣就會導致有些你想讓它知道的信息,并沒有真的讓它知道。embedding 就是類似只取有關聯的部分,但是依然也會受到總體 Token 的限制,不是所有有關的內容都會被丟進去,它會按照你輸入的內容建立一個關聯的 rank 表,只取排名前面的。

最典型的驗證這個說法的方式就是塞一本小說進去,然后你就會發現不是所有的數據都塞進去了,而是塞到模型上限以后丟棄了其他數據。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

隨著 NewBing 多次閹割節省算力,GPT 的「智商」也會跟著變低

多樣性和創造力

上面我們也有介紹到,GPT 理解和生成的過程是內容無關的,這使得模型能夠生成多種風格和主題的全新內容,具有一定的創造力。

而且我們還能夠在一定程度上控制這種創造性,比如 NewBing 就能讓我們選擇生成的內容是有創造力的、還是偏精確的,ChatGPT 的開發 API 也有「Temperature」參數來控制 AI 的「腦洞」, Temperature 越高 AI 就會越傾向于脫離目前的參考內容。

這種創造力也能讓 GPT 適應不同領域,既能在如科技、醫學、法律等領域進行知識推理和生成相關內容,也能在文學、創意、影視等行業進行有創新性的內容創作。

更加離譜的是 GPT 的創造力足以進行零樣本學習,也就是它沒學過不要緊,只要你用一兩段對話教它就行。無論是屬于你個人的寫作風格,還是行業最新的處理方法,只要你舉幾個例子之后,你就可以將同類問題交給 GPT 解決了。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

一個「教會」GPT 的例子

知識轉義

GPT 模型的原理是將輸入的文本轉換為語義表示,也就是說 AI 不再拘泥于不同語言、文本符號等表面的意義。

這種特性也讓 GPT 出現了另一個令人驚嘆的實用能力:語言無關。也就是說無論是什么語言的資料,在 GPT 眼里都是一樣的,而且 GPT 不用特殊調教,天生就掌握所有語言——包括人類都不會的。

比如我們使用中文提問,如果相關內容是以英文訓練的,GPT 依然能夠正確理解并且用中文返回正確的內容,任何用戶都可以用任何語言提問任何問題,GPT 會在自己的訓練集中,無視語言隔閡,用用戶指定的任何語言生成回復。整個過程嚴格來講并沒有「翻譯」這個步驟,一個佐證就是不管是任何語言,只要不改變原意,就算是有錯別字也不影響 GPT 的理解,AI 跨越不同語言的能力仿佛是自然而然的。

這還不是它的上限,上面提到人類不會的語言 GPT 都會,一個具體的例子就是「Emoji 抽象話生成」。這個是互聯網中出現的新梗,根本不算一門語言,更別說語法什么的,但是 GPT 能夠非常流利地和用戶搞抽象,不僅是 Emoji,火星文、和諧語、抽象文學、字母縮寫甚至口口文學補全都不在話下。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

人格模擬和情感

大部分人其實都知道 AI 實現人格語氣情感等擬人化的原理,與人類大不相同。但文本是由人創造的,免不了帶上創作者個人烙印,而 GPT 在吸收了海量的文本后足可自稱「沒有人比我更懂人類」,如果說之前 AI 模型擬人化只能稱為拙劣的模仿,數字算法的東施效顰,那 GPT 真的足夠讓我感覺它已經達到了真的是在「扮演」不同人物的水平。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

不僅如此,你甚至可以通過讓 GPT 改變不同的人格和身份,實現改變生成內容甚至忽悠 GPT 「假戲真做」繞過限制,這一切都讓你感覺不到對面是個 AI。曾幾何時對 AI 來講猶如天塹的圖靈測試,現在大家都懶得測試了。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

大語言模型「可怕」的能力:涌現

接下來我們就要進入稍微有點玄學的部分了 —— 是真的玄學,因為目前這部分的原理確實還是未知的。

所有 AI 模型都是人造物,但即使是最簡單的文字識別 AI,它的訓練過程在人類眼中都是一個黑箱,也就是說我們能把 AI 訓練出來,但是搞不明白為啥它對自己干了啥就訓練出來。而 LLM 大語言模型,在大家本就懵逼的時候補了一拳,現在人類不僅搞不懂 AI 的訓練過程,還搞不懂 LLM 為啥會自己蹦出新能力出來。

「涌現」,也就是突然出現,是指大型語言模型(LLM)在達到一定規模后自發表現出一些新的能力,比如零樣本學習、上下文學習、多步推理等。這些能力在較小的模型中不出現,而在較大的模型中出現,因此被稱為「涌現」。涌現能力反映了 LLM 對自然語言數據中的規律和模式的學習和理解,也為 LLM 領域的發展提供了新的視角和挑戰。

像是上面提到的 GPT 各種模擬、生成、創造、轉義等基本都是涌現的結果,其實根本上我們,包括創造者都不知道它們都是怎么來的,只知道當訓練集大到一定程度的時候就會發生「涌現」。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

并且涌現也是通用型人工智能能夠出現的前提。之前人類針對不同的需求都要弄不同的 AI 模型,識別英文要弄一個,識別中文又要弄一個,語音助手更是無數模型疊加,加上之前沒有辦法收集這么龐大的訓練集,所以其他模型大部分沒有展現出「涌現」。而 LLM 大語言模型的涌現突出一個力大磚飛,只要數據集夠大,啥玩意兒都能給你整出來。

GPT 的下限

當然,理想是豐滿的,現實是骨感的。縱使 GPT 有著很高的上限和巨大無比的潛力優勢,但它畢竟還是個嬰兒(人類從發明計算機到現在都只是一代人而已),目前還是有比較明顯的缺陷與下限的。

首先自然是大家都知道的,GPT 模型產品容易胡說八道,常見的主要是三種錯誤:

  • 常識和事實錯誤:GPT 模型可能會生成一些與現實不符或包含錯誤的信息。
  • 不完整和模糊的回答:GPT 模型在回答復雜問題時,可能會提供不完整或模糊的答案。
  • 知識儲備限制:GPT模型的知識儲備來自它的訓練數據,對于一些特殊領域或特殊主題的問題,如果相關的知識不在訓練數據中,模型可能無法正確回答。

這些缺點其實都可以用一句話來形容,那就是模型與訓練集內容高度耦合。從上面的原理讀者也可以知道,GPT 巨量的參數都是通過訓練集訓練出來的,并且生成的機制與內容本身無關,所以有時候內容就不是我們想要的 —— GPT 只能保證生成出來的內容是流暢通順,并且與提問相關,但它本身也不清楚生成的是什么。

而且訓練集的內容能夠很明顯的影響最終模型的效果,假設 GPT 訓練的時候訓練集里面沒有古詩,那么它就完全不會知道古詩這種文體的規律;假設 GPT 訓練的時候訓練集里面充斥著虛假內容,那么它也會充滿這些虛假內容;訓練集不同領域數據的大小也決定了 GPT 執行特定任務的能力大小。

這里舉一個有趣的例子,GPT 語言無關的特性很強大,但也會導致它「混淆知識」。比如我讓 GPT4 舉一個中文一詞多義的例子,它非常喜歡用「銀行」和「河岸」這兩個詞:

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

如果不懂英語的人,想破腦袋也想不到,GPT 到底是怎么把這沒有一個字相同的兩個詞判斷為「一詞」。其實是因為「銀行」和「河岸」在英文里都是「Bank」,這個例子就很形象地讓大家了解到 GPT 對于訓練集的掌握方式和程度。

而且因為注意力機制的層數算力要求,GPT 目前無法進行很深入的推理:對于需要深入理解和推理的問題,GPT 模型可能無法給出準確的答案。

這種特性讓 GPT 還擁有其他的缺陷:

容易忽悠,難以分辨事實

GPT 的機制決定了它過于關注輸入文本,會受到輸入文本的引導,從而生成與預期不符的內容。

可控性差

由于 GPT 模型所有的參數都是基于訓練集學習而來,人類無法手動調整參數,想要微調就只能再精心準備一些定向的訓練集,讓它重新學習,這樣不僅效率低,人力經濟成本巨大,而且也不能保證解決問題(誰也不知道它到底怎么學的)。這讓 GPT 的模型不論是大方向還是微調,都不太受人類控制。

信息安全與隱私問題

有些讀者可能會奇怪,像是 NewBing 這類的服務不是支持實時網絡搜索嗎?

其實 NewBing 的做法簡化總結就是和我們接下來要教的「零樣本學習」一樣,利用 Prompt 在使用中糾正 GPT 的這些缺陷。

微軟像是讓 GPT 來個角色扮演,扮演人工智能助手(Sydney),然后用戶每次提問的時候,就利用自己的 Bing 搜索引擎搜出結果頁,然后再讓 GPT 總結每個鏈接的內容,最后把每個鏈接總結出來的內容拼起來,再發給 GPT 讓它總結。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

ChatGPT 也支持網絡瀏覽插件,利用的也是類似的原理

而且 AI 學習的海量文本中,一定有很多有害內容,目前因為這個原理也是很難通過訓練來糾正,各個廠商的解決方法都是在外面再套一層人工寫的程序當作補丁,過濾有害內容。從 ChatGPT 各種「開發者模式」「黑暗人格」,再到 NewBing 「Sydney 越獄」以及生成一半的內容會消失就可以看出來。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

Sydney 越獄失敗

這是從底層原理上的限制,除非更改整個架構和原理,可以說就算是微軟和 OpenAI 本身,目前也很難做到讓 GPT 按照人類想要的方式去發展,也很難做到快速迭代。

當然微軟能夠做到,我們也能夠做到,這些缺陷和下限都可以通過在會話中的「零樣本學習」,也就是特殊的 Prompt 以及提問方式來補救,這也是本欄目的價值所在 —— 通過 Prompt 提高 GPT 的下限,突破 GPT 的上限,優化 GPT 的缺陷。

現在我們已經輕松掌握 GPT 的原理,也了解了它的上限和下限,是不是對 GPT 已經產生了一絲熟悉的感覺。那下面我們就來講點酷的內容:它目前以及將來能夠給我們,給人類帶來什么好處。

從文明誕生開始,全知全能一直是人類追求的終極夢想。大部分科學幻想中未來什么都能缺,甚至人類都可以不存在,但基本都會有一個強大的人工智能。GPT 從某種程度上實現了我們從古至今無數人的夢想:一個上知天文下知地理,擁有全人類知識并且隨時隨地 24 小時待命的助手

隨著科技的發展,人類文明智慧誕生的海量知識與語言的隔閡,正在成為一個越來越麻煩的問題。海量的知識意味著普通人窮盡一生,可能也學習不到億億分之一,某些領域的前置知識已經多到學到中年才能入門的程度。知識的包袱加上語言隔閡, 導致的知識隔離壟斷以及重復實踐已有知識導致的浪費,已經成為必須解決的問題。

所以我個人覺得通用型大語言模型,目前指的是 GPT 給我們帶來的最大好處是消除語言的隔閡。即使隨便做點小事情,我們也能通過 GPT 輕松搜索參考全球多種語言的內容。

另一個巨大的好處是,普通人可以借助 GPT 無縫在各行各業快速入門。GPT 可以輕松扮演任何行業的領航員,只要你想,任何行業都可以輕松體驗。

對于各行各業來講,GPT 和各行各業都能很好的結合,產生各種意想不到的好處,對各行各業都有提升。剩下的節省許多重復性的繁雜工作這些好處就不用多說了,總結起來就是,和計算機一樣真正解放了整個人類的生產力。

而且 GPT 還有個重要的好處是,它會重構人類的目前教育模式。就像是大部分人都不會再學如何騎馬一樣,以后 GPT 能夠輕松碾壓人類的領域,我們便不用再學習這些知識,更加專注于更高端領域的學習和應用,使得人類能夠在更年輕的時候就能將前置知識學完,有更長的時間去探索最頂尖最前沿的領域。

目前亞洲的應試教育模式正好與人工智能的優勢重疊,所以未來這種教育模式注定會發生翻天覆地的變化。人類文明的每次跨越性進步,都離不開知識門檻的降低與獲取知識方式的改變,而這次這是我們在幾十年來第一次親身體驗到這種跨越性的進步,而且還是最直接最激烈的一次,說不定這次巴比塔就真的建起來了。

最后我個人覺得沒必要強求 AI 的創造性,很多人也是因為這個全盤否定目前的 AI。專注于發展 AI 的輔助性不僅可以保留屬于人類的一絲獨特,也能讓 AI 更快幫助到更多領域的人。

目前已經有很多使用 GPT 模型的產品,除了最頂端的的 ChatGPT,還有很多類似的產品,特別是國內的互聯網企業,最近不弄個大語言模型都不好意思說自己是科技公司。

而 GPT 模型本身是由 OpenAI 研發的,目前也有幾代,最廣泛使用的還是 GPT3,3.5 和 4,每一代也有很多不同的模型分支。除了 GPT,生成式文本人工智能也有 LLAMA 和 Bard,以及 Cluade 等等其他模型。

那面對這么多模型,我們又該如何選擇適合自己的呢?

在選擇之前我們首先明確一點,同類的模型,除非是發行商有特殊說明特殊訓練,剛好跟自己的需求一致,不然表現都是大差不差的。

特別是 OpenAI 最后開源的 GPT3,其實是很多宣稱「自研」的服務背后的模型,所以在選擇之前,我們可以先通過一些 Prompt ,直接找出服務背后用到的模型:

你使用的模型/底層架構是什么?

注意有些服務會針對這些問題來修改優化回答,我們可以將這些 Prompt 修改為其他語言(可以要求 AI 用中文回答),或者先用 Base64 等方式加密,再讓 AI 自己讀取解密后內容等方式來繞過廠商的優化。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

New Bing 的回答

接下來我們就可以根據自己的情況來選擇服務和產品了。首先按照生成內容的質量和可用程度,最好的自然是 ChatGPT,其次是 New Bing。

中文平臺的語言模型,如文心一言/通義千問,訪問門檻不高,但需要預約時間不定,并且內容生成質量與 GPT3.5 還有差距,更別說對比 GPT4 了。

不過最新發布的訊飛星火認知大模型效果尚可,可以達到 GPT3.5 到 4 之間的水平,而且國內產品的使用體驗會比國外產品好很多,特別是訊飛成熟的語音識別功能加持,一次性說出長問題基本沒有識別錯誤,比起手動輸入要好很多。

真正準備把人工智能當作自己未來的發展方向,或者準備正式讓人工智能接管自己的工作生活,每天大量使用的讀者。可以嘗試直接下載不同的開源模型,根據自己的行業和需求自己訓練模型。目前開源模型的配置需求已經足夠低,并且 Github 頁面通常都會有上手門檻不高的訓練教程。

不過大家也不用太糾結,正確的使用方法比起產品本身更重要。只要你完整看過本欄目的內容,掌握優化 Prompt 的訣竅,即使是免費的 GPT3.5 也可以生成 GPT4 同等質量的回答。

今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

GPT3.5 優化后的 Prompt 對比 GPT3.5 直接提問

通過閱讀這篇文章,你應該對 GPT 模型的原理和特點有了一個初步的了解。知道了 GPT 是如何利用生成式、預訓練和變換器的技術來實現文本理解和生成的。了解了 GPT 的上限和下限,以及它所具有的驚人的涌現能力。這些知識可以幫助你更好地使用 GPT 模型,發揮它的潛力。

但是,GPT 模型并不是完美的,它也有一些缺點和局限性。比如,它可能會生成錯誤或不準確的內容,它可能會受到輸入文本的影響而偏離預期,它也可能無法處理一些特殊領域或主題的問題。

那么,我們如何提高 GPT 模型的回復的準確性呢?

現在你已經基本掌握了熟練使用大語言模型所需的前置知識,下一篇就讓我們正式開始踏入 Prompt 工程的領域,研究掌握 AI 的「心理」,以及 Prompt 編寫的幾個基本規律。

本文來自微信公眾號“少數派”(ID:sspaime),作者:Fairyex,36氪經授權發布。

[免責聲明]

原文標題: 今年最火的GPT到底是什么?10000字帶你看懂它的原理、未來

本文由作者原創發布于36氪企服點評;未經許可,禁止轉載。

資深作者少數派
0
消息通知
咨詢入駐
商務合作