Phenaki,一種能夠在給定一系列文本提示的情況下進行逼真視頻合成的模型。由于計算成本、高質量文本視頻數據數量有限和視頻長度可變,從文本生成視頻尤其具有挑戰性。為了解決這些問題,我們引入了一種新的因果模型來學習視頻表示,它將視頻壓縮為離散標記的小表示。此標記器及時使用因果注意,這使其可以處理可變長度的視頻。為了從文本中生成視頻標記,我們使用了一個以預先計算的文本標記為條件的雙向掩碼轉換器。隨后對生成的視頻令牌進行去令牌化以創建實際視頻。為了解決數據問題,我們展示了對大量圖像-文本對以及少量視頻-文本示例的聯合訓練如何導致超出視頻數據集中可用的泛化。與以前的視頻生成方法相比,Phenaki 可以在開放域中生成以一系列提示(即時間變量文本或故事)為條件的任意長視頻。
收起
點評