人工智能技術趨勢的六大影響:從大數(shù)據(jù)到大模型,從UGC到AIGC
曹建峰 騰訊研究院高級研究員
胡 璇 騰訊研究院高級研究員
人工智能將給互聯(lián)網(wǎng)和數(shù)字經(jīng)濟的創(chuàng)新發(fā)展提供強大動力,諸如支撐空間計算、給創(chuàng)作者提供強大助手、提供新的、復雜的敘事方式等等。在內(nèi)容生產(chǎn)層面,生成性AI、數(shù)字虛擬人等人工智能和機器學習模型將帶來一場零邊際成本的內(nèi)容生產(chǎn)變革,可以自主生成文本、圖像、音頻、視頻、虛擬場景等各類數(shù)字內(nèi)容,這將帶來人工智能生成內(nèi)容(AIGC)的蓬勃發(fā)展,打造新的數(shù)字內(nèi)容生成與交互形態(tài)。人工智能和AIGC帶來的內(nèi)容生產(chǎn)變革也將讓VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用成為可期待的現(xiàn)實:元宇宙中的虛擬世界需要能夠以零邊際成本創(chuàng)造的、滿足海量用戶的個性化需求的虛擬內(nèi)容。[1]
AI領域的兩個發(fā)展方向與互聯(lián)網(wǎng)和數(shù)字經(jīng)濟發(fā)展應用趨勢密切相關。
首先是生成性AI(Generative AI),該技術被認為是AI領域過去10年最有前景的進展,代表著人工智能的未來發(fā)展方向。[2]Gartner將生成性AI列為2022年5大影響力技術之一,并預測到2025年生成性AI所創(chuàng)造的數(shù)據(jù)將占到所有已生產(chǎn)數(shù)據(jù)的10%,而如今只占到不足1%。[3]
簡單來說,生成性AI是指,AI和機器學習算法基于訓練數(shù)據(jù),自主生成新的文本、圖像、音頻、視頻等內(nèi)容。換句話說,生成性AI可以學習并抽象出輸入數(shù)據(jù)的內(nèi)在模式,并利用這些模式生成新的類似內(nèi)容。從技術上看,生成性AI包括多種AI技術:1)GAN(生成對抗網(wǎng)絡)、VAE(變分自動編碼器)等深度合成模型;2)Transformer模型,此類大模型或者說基礎模型(foundation models)被訓練來理解語言或圖片,比較典型的大模型包括GPT-3、DALL·E-2、LaMDA、悟道2.0等。此類預訓練的大模型往往包括數(shù)以億計的參數(shù),比如谷歌最新的PaLM模型包含5400億個參數(shù),谷歌大腦則聲稱訓練出了萬億參數(shù)的模型。生成性AI正在往多模型、多任務的通用性智能體的方向發(fā)展。
就目前而言,生成性AI幾乎不需要人類參與就可以生成高質(zhì)量的創(chuàng)造性內(nèi)容,實現(xiàn)圖片風格轉(zhuǎn)化、文本轉(zhuǎn)圖像、圖片轉(zhuǎn)表情包、圖片或影片修復、合成逼真人類語音、生成人臉或其他視覺對象、創(chuàng)建3D虛擬環(huán)境等結(jié)果。人類只需設置好場景,生成性AI就會自主輸出想要的結(jié)果,這不僅將帶來零邊際成本的內(nèi)容生產(chǎn)變革,而且在某種程度上也可以避免來自人類思想和經(jīng)驗的偏見。
其次是數(shù)字虛擬人。數(shù)字虛擬人是通過計算機3D圖像軟件制作的數(shù)字化人形角色。虛擬人與過往影視特效中“阿凡達”等虛擬角色相比,結(jié)合AI合成、實時動作捕捉等技術,可以更加智能、實時地與我們進行語言、表情、動作的互動交流。虛擬人正逐步成為一門融合計算機圖形學、AI和VR、運動學、多功能感知等多學科的前沿交叉領域,并從線上文娛向更多線下功能性場景遷移。
虛擬人的形態(tài)豐富多樣:按美術類型,可分為影視級高保真、寫實、卡通等不同風格;按需要輸入的信息分類,包括預先制作動畫、實時“復制”演員表演、文字/語音驅(qū)動等;按應用場景,包括虛擬主播、虛擬偶像、虛擬主持人、虛擬客服等。
虛擬人進化的趨勢,一是融入會話式AI系統(tǒng)(Conversational AI),給傳統(tǒng)的Siri等虛擬助手、智能客服等聊天機器人以一個具象化、有親和力的人類形象,提升交流中情感的連接,有望給這一領域帶來更大的市場前景。據(jù)機構(gòu)統(tǒng)計,2021年會話式AI的全球市場規(guī)模為68億美元,預計到2026年將增長到184億美元。
隨著線上空間日益豐富,更多普通用戶也希望擁有自己的個性化虛擬形象,因此,虛擬人進化的第二個方向是制作工具更豐富、更易用。例如Epic在虛幻引擎中集成的虛擬人工具Metahuman,用戶可以在系統(tǒng)提供的基礎形象模板上修改參數(shù),僅用30分鐘就能“捏”成獨一無二的形象。可調(diào)節(jié)內(nèi)容既包括整體的膚色、身材,也包括細節(jié)的面龐輪廓、五官大小等。
第一,帶來更包容性的用戶交互方式,幫助彌合數(shù)字鴻溝。
消除數(shù)字鴻溝,打造更具包容性的數(shù)字社會,是數(shù)字技術的應有之義。AI技術將助力互聯(lián)網(wǎng)應用的包容性、普惠性發(fā)展,確保每個人都可以進入互聯(lián)網(wǎng)應用并獲得更自然的交互體驗。一個典型的例子是即時翻譯,機器翻譯、語音識別與合成、對話式AI系統(tǒng)的結(jié)合,可以讓講不同語言的用戶彼此之間進行更自然的交流。例如,Meta公司(原Facebook)為其元宇宙平臺開發(fā)的“通用語言翻譯器”(Universal Speech Translator,UST),該AI系統(tǒng)將能夠針對所有的語言提供即時的語音到語音翻譯。[4]AI系統(tǒng)驅(qū)動的即時翻譯將成為互聯(lián)網(wǎng)應用的標配。此外,動作識別、眼神追蹤、腦機接口等技術應用也將給VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用帶來更優(yōu)化的交互方式。[5]
第二,帶來零邊際成本的內(nèi)容生產(chǎn)變革,規(guī)模化創(chuàng)造虛擬環(huán)境、AI藝術等AI生成內(nèi)容(AIGC)。
VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用正在演變成一個富媒體平臺,用戶在其中可以獲得、體驗豐富多樣的、沉浸式的內(nèi)容。為了在元宇宙中創(chuàng)造能夠滿足海量用戶的不同需求的內(nèi)容,除了依靠不可或缺的人類創(chuàng)作者,人工智能作為虛擬創(chuàng)作者將扮演越來越重要的角色,將在為元宇宙創(chuàng)造數(shù)字空間、數(shù)字物品等上面發(fā)揮關鍵作用。可以說,AIGC(AI生成內(nèi)容)對于VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用的意義,正如UGC(用戶生產(chǎn)內(nèi)容)對于現(xiàn)在的互聯(lián)網(wǎng)應用的意義。生成性AI現(xiàn)在已經(jīng)能夠生成人臉、物品、場景等各類逼真內(nèi)容。例如,Meta公司的元宇宙AI應用BuilderBot能夠根據(jù)用戶的語音指令自動生成相應的場景。基于GAN的AI生成藝術已經(jīng)跟區(qū)塊鏈NFT結(jié)合起來,帶來新的數(shù)字藝術潮流。生成性AI不僅可以生成創(chuàng)造性的文字內(nèi)容,而且可以從文字描述或者簡單的勾勒中生成逼真的圖像,例如OpenAI的AI模型DALL·E-2[6]、英偉達的深度學習模型GauGAN2[7],都可以將簡單的文字描述或語句轉(zhuǎn)化為逼真的、高清的圖像,而且目前已經(jīng)可以達到4k以上分辨率。這些進展意味著,通過融合人工智能與AR/VR,元宇宙將創(chuàng)造出大規(guī)模的、逼真的虛擬世界。總之,對于元宇宙而言,生成性AI的變革性意義在于其將帶來零邊際成本的內(nèi)容生產(chǎn),這是一場內(nèi)容生產(chǎn)革命,只有通過AGIC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內(nèi)容需求。
第三,帶來更加智能化的虛擬化身(avatar)。
在未來的3D化的互聯(lián)網(wǎng)應用中,用戶通過一個虛擬化身在其中體驗各種內(nèi)容與服務,用戶的虛擬形象(avatar)的準確性將決定用戶之間體驗的質(zhì)量。AI引擎可以分析用戶的2D圖片或3D掃描,然后形成高度逼真的仿真渲染,同時結(jié)合臉部表情、情緒、發(fā)型、年齡特征等因素讓用戶的虛擬形象更具活力。目前,Meta、英偉達等眾多科技公司已經(jīng)在利用AI技術幫助用戶在虛擬世界打造虛擬化身,例如英偉達的omniverse avatar可以生成、模擬、渲染可互動的虛擬形象。[8]當然,生成性AI創(chuàng)造的虛擬化身,以及合成的人類語音,在很多情況下也可以給用戶的身份和隱私提供一層安全保障。
第四,驅(qū)動數(shù)字人等下一代AI角色,打造更具沉浸感的元宇宙使用體驗。
對話式AI系統(tǒng)、先進的實時圖形處理等技術的結(jié)合,將使得數(shù)字人、虛擬助手、虛擬伴侶、NPC等數(shù)字智能體(digital agent)能夠逼真地模仿人類的音容笑貌,變得更加智能化、人性化。例如,Epic的MetaHuman工具可以把創(chuàng)造數(shù)字人的時間從數(shù)月減少到數(shù)分鐘,并且可以給數(shù)字人注入活力,實現(xiàn)逼真的運動、行動、語言表達等。這將帶來更復雜的、自然交互的AI虛擬角色,除了模仿人類的語言表達,還具有表情、肢體語言、情緒甚至物理交互等能力,給用戶在元宇宙中提供更直觀的、更具沉浸感的數(shù)字化體驗。可以說,數(shù)字人等新型AI角色將決定VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用的體驗質(zhì)量和吸引力。[9]國內(nèi)的一個典型案例是冬奧手語人。虛擬人在實時手語翻譯領域初試啼聲,大有可為。根據(jù)抽樣調(diào)查,我國有聽障人士2780萬人。實時手語翻譯是聽障人士理解語音、視頻信息的重要橋梁,而手語主持人長期“供不應求”,僅新聞等少數(shù)節(jié)目配備。2022年北京冬奧會期間,央視頻與騰訊3D手語數(shù)智人“聆語”合作,提供多場直播賽事的實時手語支持。針對體育賽事進行專門訓練后的“聆語”的翻譯能力已非常接近真人,手語可懂度90%以上,未來進一步豐富專業(yè)語料庫后可拓展到更多視頻場景。
第五,支持未來互聯(lián)網(wǎng)應用中個性化的內(nèi)容與服務提供。
信息大爆炸的互聯(lián)網(wǎng)時代,AI推薦算法無疑是最成功、最具商業(yè)價值的AI應用之一。可以肯定的是,當前的互聯(lián)網(wǎng)時代所面臨的的信息大爆炸、信息過載等問題,VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用中依然存在,甚至可能會變得更為突出,因此高性能AI推薦系統(tǒng)驅(qū)動的個性化推薦仍將發(fā)揮關鍵作用。正因如此,Meta公司的元宇宙AI布局也涉及AI推薦系統(tǒng),包括將推薦系統(tǒng)開源給其機器學習框架PyTorch。
第六,識別、打擊惡意行為。
在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用中,不僅內(nèi)容的種類會更加豐富,而且內(nèi)容的數(shù)量也將呈指數(shù)級增長。這意味著色情、暴力、恐怖等違法有害內(nèi)容可能在元宇宙中變得更加突出,而且生成性AI被濫用來對音視頻進行偽造或篡改有可能帶來新的安全問題。因此,利用AI技術來識別、打擊元宇宙中的惡意行為將變得越來越重要和必要。例如,對于圖片、視頻的篡改問題,騰訊優(yōu)圖實驗室開發(fā)的換臉甄別模型,基于圖像算法和視覺AI技術,可以實現(xiàn)對視頻中的人臉真?zhèn)芜M行高效快速的檢測和分析,鑒別視頻、圖片中的人臉是否為AI換臉算法所生成的假臉。
包括生成性AI、數(shù)字虛擬人等在內(nèi)的AI技術突破將給互聯(lián)網(wǎng)和數(shù)字經(jīng)濟的創(chuàng)新發(fā)展與應用提供強大動力,幫助創(chuàng)造出更加真實的虛擬世界,推動虛擬世界真實化。但AI、VR/AR等新技術的結(jié)合帶來的虛擬真實(virtual realness)在增強用戶在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用中的使用體驗的同時,也可能帶來新的挑戰(zhàn)。
例如,權利歸屬的問題,AI創(chuàng)作內(nèi)容的知識產(chǎn)權如何保護?隱私保護的問題,VR/AR、元宇宙等應用形態(tài)應該可能涉及收集用戶的更私密的生物識別數(shù)據(jù),給用戶的隱私和數(shù)據(jù)安全提出新的挑戰(zhàn)。新型違法犯罪活動,例如惡意分子可能擅自使用他人的肖像、聲音等,利用生成性AI和數(shù)字虛擬人技術從事偽造、仿冒、欺騙、詐騙等非法活動。AI應用的透明度和可解釋性,如何確保用戶知道其在與人工智能而非人類互動,如何讓用戶理解、信任推薦系統(tǒng)等AI應用。算法歧視問題,數(shù)字人和其他的AI算法應用也可能出現(xiàn)歧視性行為,影響用戶權益。
因此,各界需要負責任地發(fā)展應用生成性AI、數(shù)字虛擬人等AI技術,在VR/AR、元宇宙等未來互聯(lián)網(wǎng)應用中打造負責任的、可信的、以人為本的虛擬真實體驗。更加重視科技倫理與風險管理,踐行科技向善,將科技倫理治理貫穿到AI應用的全生命周期,同時以技術創(chuàng)新的方式應對隱私保護、安全、違法犯罪等問題,消除算法歧視,打造更加透明、可解釋的AI應用,促進用戶的理解與信任。
[1]https://stratechery.com/2022/dall-e-the-metaverse-and-zero-marginal-content/
[2]https://www.technologyreview.com/2021/05/27/1025453/artificial-intelligence-learning-create-itself-agi/
[3]https://www.cloverinfotech.com/blog/generative-ai-explained-gartners-top-strategic-technology-trend-for-2022/
[4]https://about.fb.com/news/2022/02/inside-the-lab-building-for-the-metaverse-with-ai/
[5]https://towardsdatascience.com/how-ai-will-shape-the-metaverse-4ea7ae20c99
本文來自微信公眾號 “騰訊研究院”(ID:cyberlawrc),作者: ,36氪經(jīng)授權發(fā)布。