終于有人用 AIGC「干正事」了—— 設(shè)計蛋白質(zhì)
生物學(xué)家的夢想:定制化生成蛋白質(zhì)。
作者 | 凌梓郡編輯 | 鄭玄
AIGC 的能力驚艷了所有人,背后的技術(shù)——擴散模型,也啟發(fā)了生物學(xué)家。而當生物學(xué)家將這項技術(shù)「為己所用」,就帶來了技術(shù)升級:更準確地設(shè)計全新的、從來不存在的蛋白質(zhì)。結(jié)果比目前已經(jīng)存在的模型都更加優(yōu)秀。無論是 Open AI 的 DALL-E,還是開源的 Stable Diffusion,能生成以假亂真繪畫,背后的關(guān)鍵技術(shù)都離不開擴散模型。
2022 年,人們獲得了一項前所未有的繪畫超級工具。普通人只要用語言給出描述、或者幾個關(guān)鍵詞,就可以用 AI 程序生成一張媲美專業(yè)畫師的作品。擁有了這樣工具的人,即使沒有學(xué)過繪畫、不會操作任何設(shè)計軟件,也像是擁有了神筆的馬良。而一些專業(yè)的視覺設(shè)計從業(yè)人員,也開始嘗試用新的工具輔助工作。這一波 AI 繪畫的火熱,再一次證明了 AI 圖像技術(shù)的發(fā)展。不是幾年前的識別是人還是車、是貓還是狗,而是直接生成。
AI 生成的圖像|來源:網(wǎng)絡(luò)
而技術(shù)帶來的想象遠不止理解語言、生成圖像,也能給科學(xué)家提供強大的工具。也許你還記得去年夏天的 AI 刷屏,DeepMind 推出的 AlphaFold2 解決了困擾生物學(xué)家五十多年的難題——蛋白質(zhì)預(yù)測。隨著這一話題的熱度攀升,人們逐漸意識到了 AI 的另一種強大力量。曾經(jīng)需要科學(xué)家在實驗室里花費數(shù)月甚至數(shù)年,才能夠測得某個蛋白質(zhì)的結(jié)構(gòu),如今輸入一串氨基酸序列,就可以得到預(yù)測的結(jié)構(gòu)。
DeepMind 的創(chuàng)始人兼 CEO Demis Hassabis 說,「我認為,未來十年我們會看到更多這樣的事情ーー人工智能真正有助于真正加速一些科學(xué)突破ーー我們希望成為更多科學(xué)突破的一部分。我們認為這只是個開始。」
科技突破往往發(fā)生在交叉領(lǐng)域,蛋白質(zhì)預(yù)測突破背后,一個關(guān)鍵便是源自自然語言處理的技術(shù) Transformer,應(yīng)用在了生物領(lǐng)域。這樣的模式正繼續(xù)發(fā)生:源自AI 繪畫領(lǐng)域的擴散模型,正在加速蛋白質(zhì)設(shè)計。
蛋白質(zhì)設(shè)計可以做的事情太多了。這項能力讓人類得以生產(chǎn)分子級別的「機器」,它們可以是新的藥物、疫苗、新的納米材料、為特殊反應(yīng)定制的酶……甚至可以作為污染處理方案,分解環(huán)境中的有毒分子。
01
從預(yù)測到設(shè)計
蛋白質(zhì)執(zhí)行著生命的各項功能,也是生命系統(tǒng)中最重要的「分子元件」。比如,當新冠病毒感染人體時,在微觀層面,首先是兩種蛋白的結(jié)合。病毒表面的刺突蛋白(S 蛋白)結(jié)合了人體內(nèi)細胞上的另一種蛋白——ACE2。
新冠病毒電鏡掃描 3D 圖,粉色的部分為刺突蛋白|來源:Nanographics
決定一個蛋白質(zhì)擁有怎樣功能的,是它的結(jié)構(gòu)。「氨基酸序列——結(jié)構(gòu)——功能」三者間的對應(yīng)關(guān)系,是理解一個蛋白質(zhì)的密碼。最難的是「氨基酸序列——結(jié)構(gòu)」之間的關(guān)系,因為一條氨基酸長鏈條折疊成什么樣,有無數(shù)種可能性。究竟如何折疊,受到氨基酸之間化學(xué)反應(yīng)、蛋白質(zhì)所處環(huán)境等各種因素的影響。科學(xué)家目前掌握了蛋白質(zhì)折疊的基本原理:蛋白質(zhì)會折疊到能量最低的狀態(tài),然后保持結(jié)構(gòu)穩(wěn)定。AlphaFold2 則用更優(yōu)的模型+暴力計算,一舉超越了之前所有的計算方法。
蛋白質(zhì)設(shè)計,是結(jié)構(gòu)預(yù)測的逆向問題。兩者像是「序列——結(jié)構(gòu)」這道題的正反求解。已知序列、求解三維結(jié)構(gòu),是結(jié)構(gòu)預(yù)測;設(shè)定某個三維結(jié)構(gòu)、求解序列,便是蛋白質(zhì)設(shè)計。
人類想設(shè)計蛋白質(zhì),歸根到底是想讓這種強大的生物元件來為自己服務(wù)。我們可以先設(shè)想一個需要的功能,然后看什么樣的結(jié)構(gòu)來實現(xiàn)功能。最初的要求可能是:瞄準某個靶點的藥物分子、在細胞膜表面專門運送某種物質(zhì)的蛋白……科學(xué)家最想擁有的「魔法」是,去設(shè)計一個自然界原來并不存在的蛋白質(zhì)。
蛋白質(zhì)設(shè)計領(lǐng)域的領(lǐng)軍人物大衛(wèi)·貝克(David Baker)將這個正在發(fā)生的進程稱為「蛋白質(zhì)設(shè)計革命」,「這場革命與人類歷史上發(fā)生過的其它科技革命類似,我們將可以用新的方式來操控世界……通過『蛋白質(zhì)設(shè)計革命』,我們將學(xué)會用前所未有的方式,來操控生物分子。」他目前是華盛頓大學(xué)的計算生物科學(xué)家,在 AlphaFold2 模型推出之前,他帶領(lǐng)團隊推出的預(yù)測蛋白質(zhì)方式是學(xué)界的主流模型。
David Baker | 來源:華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所
如今,他的實驗室也走在蛋白質(zhì)設(shè)計的前沿。12 月初實驗室發(fā)布了最新的模型 RF diffusion(射頻擴散),這個模型將 AI 繪畫領(lǐng)域的擴散模型創(chuàng)新地融入蛋白質(zhì)設(shè)計中。
另一個團隊也發(fā)布了類似的成果,波士頓的蛋白質(zhì)設(shè)計公司 Generate BioBiomedicines,發(fā)布了一個蛋白質(zhì)設(shè)計程序 Chroma。這兩項最新的研究成果,都可以對性能、結(jié)構(gòu)先做一些設(shè)定,再依據(jù)這些設(shè)定來生成全新的蛋白質(zhì)。
來自貝克團隊的一位成員說,「我們生成的蛋白質(zhì)與現(xiàn)有的蛋白質(zhì)完全沒有相似性。」Generate Biomedicines 的 CTO 則形容,「我們可以在幾分鐘內(nèi)發(fā)現(xiàn)花費了數(shù)百萬年的進化是什么」。除了根據(jù)條件來重新設(shè)計,兩個團隊的最新模型還可以生成蛋白質(zhì)片段,將片段與已經(jīng)存在的結(jié)構(gòu)匹配。
這次研究中出現(xiàn)了讓大衛(wèi)·貝克非常驚喜的結(jié)果——生成了一種附著在甲狀腺旁激素上的蛋白質(zhì)。「它憑空想出了這種蛋白質(zhì)設(shè)計」。這種蛋白質(zhì)的功能是控制血液中的鈣水平。在設(shè)計時,科學(xué)家只是告訴模型荷爾蒙的信息,然后讓它生成一種與之結(jié)合的蛋白質(zhì)。接下來,在實驗室測試這種蛋白的時候,他們發(fā)現(xiàn),新設(shè)計出的蛋白和激素緊密連接,甚至超出了現(xiàn)有的藥物。
David Baker 實驗室設(shè)計的環(huán)狀蛋白質(zhì)|來源:華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所
02
設(shè)計蛋白質(zhì)的「魔法」
如果說提出對圖畫的描述,讓 AI 幫你作畫已經(jīng)超出想象;提出一個對蛋白質(zhì)的要求,讓 AI 幫你設(shè)計出這樣一個分子,更像是一種超級能力。大自然花了上億年形成蛋白質(zhì)進化規(guī)律,人類雖然不能完全翻譯這些規(guī)律,卻可以發(fā)明強大的工具,并對它發(fā)出指令:「生產(chǎn)一個可以與 X 結(jié)合的分子」。
擴散模型已經(jīng)在 AI 繪畫顯示了威力。最基礎(chǔ)的直覺原理來源于物理學(xué)。在環(huán)境中,氣體分子會高濃度區(qū)域擴散到低濃度區(qū)域,這個過程,也類似噪聲逐步擴散、最終導(dǎo)致信息丟失。
將這個原理運用在圖像生成,便是將「噪聲逐步擴散、最終信息丟失」的過程逆向運作。先生成一張充滿大量噪聲的圖片,再基于 AI 能力,一邊猜測哪些對于最終的圖像而言是「噪點」,將其去除,那么剩下的便是所需的「信息」。通過迭代,在噪聲中反復(fù)提取出「信息」,最終生成被指定的圖片。
為什么擴散模型用于蛋白質(zhì)設(shè)計,會有更強大的結(jié)果呢?極客公園咨詢了兩位計算機生物學(xué)領(lǐng)域的學(xué)者。他們表示,目前會有一些依據(jù)模型特點的推測,但還很難說清楚。不過目前的研究結(jié)果,已經(jīng)證明了擴散模型的潛力。Baker 實驗室表示:射頻擴散方法在許多問題上優(yōu)于現(xiàn)有的蛋白質(zhì)設(shè)計方法。
比如用來設(shè)計皮摩爾級別的結(jié)合劑(1 摩爾=10^12 皮摩爾)。Barker 實驗室的科學(xué)家 Joseph Watson 難掩興奮地在 Twitter 上分享結(jié)果:我們設(shè)計了五種醫(yī)學(xué)相關(guān)分子的粘合劑。這些結(jié)合蛋白通過了最嚴格的計算機測試,現(xiàn)在正在實驗室測試它們。將來,可能只需要幾秒鐘就可以為任何目標設(shè)計出高親和力的結(jié)合蛋白。
五種粘合劑|來源:Joseph Watson
而在 Generate Biomedicines 的最新成果中,具有對稱結(jié)構(gòu)的蛋白質(zhì)分子表現(xiàn)優(yōu)異。
Baker 曾經(jīng)說,「有時候我自己也會覺得這像是魔法。我喜歡做這些魔法般的事情。」只不過為了取得這些「魔法」,他們經(jīng)歷的失敗、復(fù)雜的研究過程,很少為外界所知。
還有許多結(jié)果等待驗證。設(shè)計出的蛋白是不是能夠如所設(shè)想的具有特定功能?這需要合成出蛋白質(zhì),進行實驗驗證。目前 Baker 實驗室正在鑒定一種能與新冠病毒相關(guān)的蛋白。這種蛋白具有對稱的結(jié)構(gòu),能夠與病毒上三個對稱的刺突蛋白結(jié)合。
今年 6 月份,一款新冠病毒疫苗在韓國獲批上市。這是科學(xué)家運用之前的蛋白設(shè)計能力研發(fā)出的疫苗。這款名為 GPB510 的疫苗,是一個人工設(shè)計的蛋白質(zhì)納米顆粒,上面布滿了新冠病毒的刺突蛋白片段。(下圖中的紅色部分),這些片段能夠激發(fā)人體產(chǎn)生抗體。
不斷發(fā)展的工具,會給人類帶來更多不同功能的蛋白質(zhì);如今,正來到了不斷突破的加速期。
*頭圖來源:enerate BioBiomedicines
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
本文來自微信公眾號“極客公園”(ID:geekpark),作者:凌梓郡,36氪經(jīng)授權(quán)發(fā)布。
