AI探星:在靜默宇宙中尋找“燈塔”
2017年9月15日,“中國天眼”FAST之父、72歲的南仁東先生駕鶴西去,一封郵件最終沒有等來回音。
在他去世前5天,經澳大利亞帕克斯望遠鏡驗證,確認了FAST發現的一顆脈沖星:FAST脈沖星一號(FP1)。這無疑是FAST投入使用一周年之際,一個令人尤為振奮的消息。此前,南老胼胝手足二十二載,帶領團隊翻山越嶺,只為筑成國之重器FAST。
收到驗證消息后,FAST副總工程師李菂馬上給南老發去郵件。據推測,當時南老已因肺癌晚期病情惡化,被轉入ICU。他是否看到這條消息,已無從得知。而FAST仍在浩瀚星辰中,探尋著脈沖星——它是恒星的逝去殘骸,擁有極強的磁場,被譽為宇宙的燈塔。
2021年7月,FAST的探星之旅注入了新的力量,騰訊優圖實驗室,開始以AI助力國家天文臺,共同檢測它接收到的龐雜宇宙信號。在數十億張信號圖中,AI找到了22個脈沖星候選體。今年9月1日,2022世界人工智能大會(WAIC),最高獎項“SAIL之星獎”頒給了這項“AI探星計劃”。
優圖實驗室專家研究員王亞彪說,在以“億”計量、起伏的信號中,他能感受到那些萬千光年之外、遙遠過去的殘影,那是在天體經歷的生死更迭,在無垠宇宙中,他感到前所未有的渺小與敬畏,他用康德的一句名言形容:
“有兩種東西,我們對它們的思考越是深沉和持久,他們在我們心中喚起的贊嘆和敬畏就會越歷久彌新,這就是我們頭頂浩瀚的星空和心中崇高的道德法則。”
而當人類仰望繁星、求索宇宙時,無可否認的是,AI已為這趟征途標下了新的注腳。
作者│張吉
那是外星人發出的信號嗎?
1967年夏日,24歲的約瑟琳·貝爾(Jocelyn Bell Burnell)在劍橋讀博,自小喜愛天文的她,正守著一座“果園”——在一座面積達4.5英畝、插了2048根桿狀天線的射電望遠鏡上,她需要將天線正確連接,以此完成類星體監測。
當年8月6日,在近4830米長的監測圖紙中,她驚奇地發現,其中一段不到5厘米的曲線,完全無法歸類到已知信號。為此,她進行了更為細致的觀測記錄,11月底,她得到一系列極其規律、時間間隔為1.33秒的等間隔脈沖。起初她猜測,信號來自地外文明,還將其編號為“小綠人1號”(LGM-1)——科幻作品中常見的外星人形象。
隔年一月,貝爾和導師安東尼·休伊什(Antony Hewish),在《自然》上發表了相關論文,推測這一神秘天體或與中子星的振蕩有關。很快,猜想得到天文學家證實,僅6年后,為表彰休伊什在射電天體物理學的開創性研究,諾獎頒給了他,貝爾卻因其性別與地位,與諾獎失之交臂。
但誰也無法否認,正是“脈沖星之母”貝爾,在廣漠宇宙中,為世人找到了燈塔。
脈沖星,為巨大恒星死亡后的殘骸,是宇宙中磁場最強的天體:直徑小,但密度極高,僅挖出骰子塊兒大小,就有10億噸重。同時,它轉得飛快,自轉一周,通常只需數秒。且它的自轉極其規律,誤差僅幾千萬億分之一。打個比方,從恐龍時代計算至今,它的誤差約為1秒。
快速的脈沖星,就如宇宙中的燈塔,能發出無線電、可見光等射線。未來,當人類的星艦駛向太陽系外,即可通過對其周期的監測,掌握自身速度,進而推算出航行坐標。復旦大學計算機科學技術學院副教授、博士生導師池明旻,與國家天文臺長期合作FAST項目,她形容,地面導航靠GPS,星際導航靠脈沖星,這也是它未來的重要應用場景之一。
而在脈沖星搜索上,中國天眼“FAST”首當其沖。
對于這架口徑500米、世界最大的單口徑射電望遠鏡,人們常稱為“大鍋”,卻不一定能直觀感受到它有多大,FAST的工程師曾算過,把鍋裝滿水,夠全世界70億人每人分4瓶礦泉水。
它的靈敏度同樣無可匹敵,它觀測到的第一顆新脈沖星:FAST脈沖星一號(FP1,自轉周期1.83秒,距離地球粗估1.56萬光年),只用了52.4秒,且信號/噪聲比值(信噪比)是帕克斯望遠鏡驗證時所用2100秒觀測的3倍。坐落貴州平塘縣山坳間的FAST, 即便望不見星辰,依舊能在宇宙大爆炸的亙古殘響中,將逝去的創世、毀滅之聲化作可被人類“聆聽”的數據。
但難題或許在于,數據實在太多了。
池明旻介紹,國之重器FAST承載著多個科研項目,探尋脈沖星僅是其一,FAST首席科學家李菂為此需要提前申請“檔期”。有時監測也就一周左右,但接收到的數據近500TB,經過圖像預處理,生成的圖片能達到3千萬——1億張——要知道,現今全球社交網絡每天上傳的圖片約30億張。池明旻說,國內曾有不少超算中心找來,愿意提供計算資源,但最終都不了了之,“技術人員不參與,很多東西就沒法做。”
圖│FAST天眼實景
轉機出現在一次“頭腦風暴”。2021年始,騰訊優圖內部有個會議:AI在常規應用之外,還能做什么?騰訊優圖專家研究員王亞彪回憶,當時還有數字孿生、光計算、AI材料等各項提議,但他提出的“AI+天文”很快通過。王亞彪自己就是個天文愛好者,一直關注FAST的建設、科研進展,也清楚天文對AI的高度需求。
“有史以來從沒做過一個項目這么快。”騰訊優圖研究總監汪鋮杰說,通過池明旻教授牽線、溝通,他與FAST首席科學家李菂聊了兩小時,就把項目拍板了。
汪鋮杰回憶,李菂一聊起天文,“就像小孩子玩一個東西上癮”,剎不住,極其細致、乃至執著地講解著宇宙信號如何分辨、畫圖。
與李菂溝通下來,王亞彪確定,短期內不一定有成果,但方法肯定是可行的,他要做的,是和團隊優化AI模型,在浩瀚星辰投下的億萬張靜默影像里。再次找到那段專屬燈塔的信號。
AI探星的第一步,是重新處理紛雜的宇宙信號。
池明旻解釋,判定短周期脈沖星,被噪聲淹沒的原信號經過快速傅里葉變化、消色散、盲搜周期然后進行周期折疊后,可獲得時間-相位-頻率3D圖,為了方便察看和處理,通常將其轉為2D的時間-相位圖、時間-頻率圖等,這個過程即預處理。它是天文領域的難點之一,如何加速,正是AI一展身手的機會。
為此,騰訊提供了幾十臺GPU服務器,24小時不間斷運行。王亞彪說,對于單脈沖搜索任務,原有的預處理代碼太慢,“可能發現一顆脈沖星需要一兩年的時間。”且代碼不適配云計算服務器,需要重新優化。
圖│全天區脈沖星分布圖
汪鋮杰回憶,一開始團隊還覺得天文學習成本有些高,實際推進卻沒想象中難。一個算法跑完,召回一些疑似脈沖星圖片,池明旻現場就會講解,以此調整算法模型,屏蔽異常信號。汪鋮杰形容,宇宙信號落到圖片,就和尋找工業零件上的一條劃痕類似,他們需要做的是鑒別劃痕的細微差別。”
算法調整完,一套初步的多模態算法就誕生了。池明旻表示,該算法基于脈沖星的多源信息,進行綜合判斷,“加入DM這個濾波木塊,比常規基于時間-相位圖、時間-頻率圖的直接分析,時效性和準確性得到極大提高。”她舉例稱,如色散值,它有一個曲線,如果曲線沒有峰值,就可直接排除。這項指標此時就能過濾整體數據,提高效率。
圖│周期信號圖
當然,面對未知的宇宙,AI也有自己的難題。
AI學習能力的提升,往往與龐大數據緊密捆綁,但此次用于學習的脈沖星樣本,數量也就一百顆左右。“樣本不均衡的問題比較嚴重。”王亞彪說,這與優圖以往的業務差異很大,數據收集難,樣本少,數以億計的圖片都是無效數據。
因此,優圖轉而采取“小樣本學習”研究方式。根據現有樣本,配對更多非脈沖星樣本來構建訓練模型,增強AI在特征抓取、識別上的能力。此外,復旦和優圖還嘗試了半監督學習和數據擴增:給大量的無標注樣本賦予偽標簽,并給已知脈沖星數據添加不同程度的宇宙噪聲,供AI繼續“深造”。
池明旻表示,這些“半監督學習”方式,本質還是回到大數據學習模式,“把模型參數做得更深一點,AI在特征提取上就會更充分。”AI的識別能力也會有質的提升。數據顯示,相比原有的AI篩選模型,多模態+半監督方案具有更高的召回率,且誤報率下降98%。
而這建立在優圖長時間以來的技術積累。王亞彪說,探星項目啟動時,有近兩個月時間,他和團隊周末幾乎無休,想盡快把AI算法搭起來,他記得,找到第一顆脈沖星,AI花了近一個月,當時他恰好在深圳出差,聽到消息有些興奮,但也覺得在預期內,“(找到)只是時間問題。”之后,團隊繼續完善算法,讓AI在多個云服務器上運行得更為穩定。
截至目前,將FAST脈沖星搜索速度提升120倍的探星計劃,已在數十億張圖片中,找到22個脈沖星。其中包括在天體物理中具有較高觀測研究價值的高速自轉的毫秒脈沖星7顆,具有間歇輻射現象的年老脈沖星6顆。
在池明旻看來,脈沖星的探索,其實充滿未知,不能確切給出一個可量化的成果。“不僅僅需要付出努力,還需要有耐心。”此次AI探星,騰訊優圖無疑起了個好兆頭,她希望業內也能有更多平臺參與天文科研。
眼下,騰訊優圖、國家天文臺、復旦大學計算機科學技術學院還開啟了對M31仙女座星系的射電信號處理。M31在銀河系外,距地球250萬光年,池明旻說,這意味著搜索空間更大。對計算資源的要求也更高。且在銀河系外,因為信號非常弱,可能100億張圖片里都搜不到一顆脈沖星,“努力之外還有幸運的成分。”
不過,“我們可以預測一下它可能的樣子”,池明旻表示,AI還有對抗生成式學習方法,通過預測M31星系的脈沖星特征,模擬出大量數據供AI學習,再與FAST對M31觀測的大量數據比對,“只要找到一顆,就是一個從‘0到1’的突破。”
“騰訊的本質,就是要去支持難而正確的東西。”汪鋮杰說。
“工業有產出,學術有影響”。汪鋮杰表示,騰訊優圖的定位,就是以產品應用落地為主,兼顧學術影響力。探星計劃對社會貢獻、科研探索、長遠效益是不容忽視的。
探星所要應對的海量數據,對騰訊的云計算力,如提升并行度,機器利用率,提出了更為極致的要求,“這些都是有復用的經驗可以沉淀下來”,汪鋮杰說,優圖在做的工業AI質檢相關:質檢有效樣本的量級也在一百上下,要檢出偏小概率的未知產品缺陷,其中的AI分類模型,異常檢測,小樣本技術與AI探星都是相通的。
汪鋮杰透露,未來騰訊還考慮將AI探星做成科普課程,以更好培養青少年的天文、AI興趣。今年9月,騰訊優圖、國家天文臺、復旦大學三方以“脈沖星”聲音為創作元素,發起了一場“尋找宇宙心跳”脈沖星演奏會,也是希望通過創新科普形式讓更多人了解脈沖星,以及AI+天文的更多可能性。
科普的另外一面,也是優圖對“AI for Science”的探索。他補充說,探星項目之前,他與團隊也不確定AI如何與基礎科學銜接、配合、協作,如今優圖已有底氣做類似項目,“這實際上是我們朝著自己未知能力邊界邁出的一步”。
天文之外,優圖還推進著一項甲骨文探索計劃。汪鋮杰介紹,這是與SSV數字文化實驗室的共創項目,通過視覺AI對甲骨文進行綴合、摹本,給殘缺的甲骨文3D建模,助力甲骨文的識別與考釋,為專家考古提供更多的破譯線索。
圖│騰訊優圖團隊
在王亞彪看來,這種“跨界”其實注定到來。
王亞彪雖是工科出身,自小閱讀興趣卻很廣泛,武俠、天文、歷史、哲學等人文社科書籍,來者不拒。他常流連于鎮里賣書的地攤,買過不少天文彩繪書,其中光學望遠鏡拍的高清照片,那些深邃宇宙中、恒星地表的細致紋理、質感,令兒時的他深受震撼,只是伴隨專業分流,他的注意漸漸集中到自動化算法和系統設計。
工作后與天文再次“結緣”,他不覺意外,“科學發展到今天,越來越精細了,要做出一些成果,需要一些交叉學科的合作。”他表示,還有很多宇宙信號,優圖并未涉足,其中光學望遠鏡的成像處理,就有很大應用空間,因為原始成像需要經過多次曝光,校準,才能完美出片,“這也是與計算機視覺更加相關的領域。”
汪鋮杰表示,騰訊后續還將推出“TI”學習平臺,此次AI探星,其實已在該平臺上做了相應實踐。FAST項目能用這個平臺,也印證了其他領域,如材料合成,工業、農業有應用的空間。以農業為例,通過AI提取農田成像中的黃葉、斑點、等信息,識別潛在的病蟲害類型,再結合農業科技人員意見匹配治理方案。
“確保AI的能力能在各行各業用起來”,汪鋮杰希望,通過TI平臺,將AI應用門檻降下來,不同行業的產品,都可以在平臺上做各自領域的AI技術研發和應用,促進AI與實體產業深度融合。
或許,這注定是一場長跑。但它已進入了前所未有的加速階段,就如在世界人工智能大會上,騰訊云副總裁、騰訊優圖實驗室總經理吳運聲所言:“隨著數字技術與實體經濟加速融合,人工智能的發展不再局限于算力、算法、數據等方面的技術突破,而是從行業應用、社會需求的角度逐漸深入,展開一場‘雙向奔赴’的范式變革。”
本文來自微信公眾號“邊碼故事”(ID:tech-kk),作者:張吉,36氪經授權發布。
