国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

量子位

+ 關注

2022-03-28 11:30

1526次閱讀

豐色發自凹非寺
量子位 | 公眾號 QbitAI

人類在說話時會自然而然地產生肢體動作，以此來增強演講效果。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

現在，來自中科大和京東的研究人員，給AI也配備了這樣的功能——

隨便丟給它一段任意類型的演講音頻，它就能比劃出相應的手勢：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

配合得非常自然有沒有？

對于同一個音頻，它還能生成多種不一樣的姿勢：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

采用“雙流”架構

由于每個人的習慣并不相同等原因，演講和肢體動作之間并沒有一套固定的對應關系，這也導致完成語音生成姿勢這一任務有點困難。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

△ 極具代表性的意大利人講話手勢

大多數現有方法都是以某些風格為條件，以一種確定性的方式將語音映射為相應肢體動作，結果嘛，也就不是特別理想。

受語言學研究的啟發，本文作者將語音動作的分解為兩個互補的部分：姿勢模式（pose modes）和節奏動力（rhythmic dynamics），提出了一種新穎的“speech2gesture”模型——FreeMo。

FreeMo采用“雙流”架構，一個分支用于主要的姿勢生成，另一個分支用于“打節奏”，也就是給主要姿勢施加小幅度的節奏動作（rhythmic motion），讓最終姿勢更豐富和自然。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

前面說過，演講者的姿勢主要是習慣性的，沒有常規語義，因此，作者也就沒有對姿勢生成的形式進行特別約束，而是引入條件采樣在潛空間學習各種姿勢。

為了便于處理，輸入的音頻會被分成很短的片段，并提取出語音特征參數MFCC和演講文本。

主要姿勢通過對演講文本進行關鍵字匹配生成。

語音特征參數MFCC則用于節奏動作的生成。

節奏動作生成器采用卷積網絡構成，具體過程如圖所示：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

M_A和M_B是訓練集中隨機抽取的兩個動作序列。

紅色框表示動作序列平均姿勢的偏移量。通過交換倆個序列的偏移量，模型就可以在不影響主要姿勢的情況下進行“節奏”控制。

更具多樣性、更自然、同步性更高

FreeMo的訓練和測試視頻包括專門的Speech2Gesture數據集，里面有很多電視臺主持人的節目。

不過這些視頻受環境干擾嚴重（比如觀眾的喝彩聲），以及主持人可能行動有限，因此作者還引入了一些TED演講視頻和Youtube視頻用作訓練和測試。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

對比的SOTA模型包括：

采用RNN的Audio to Body Dynamics (Audio2Body)
采用卷積網絡的Speech2Gesture (S2G)
Speech Drives Template (Tmpt，配備了一組姿勢模板)
Mix StAGE（可以為每一個演講者生成一套風格）
Trimodal-Context (TriCon，同樣為RNN，輸入包括音頻、文本和speaker)

衡量指標一共有三個：

（1）語音和動作之間的同步性；
（2）動作的多樣性；
（3）與演講者的真實動作相比得出的質量水平。

結果是FreeMo在這三個指標上都超越5個SOTA模型獲得了最好的成績。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

△ 同步性得分，越低越好

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

△ 多樣性和質量水平得分

ps. 由于5個SOTA模型在本質上都是學習的確定性映射，因此不具備多樣性。

一些更直觀的質量對比：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

最左上角為真實演講者的動作，可以看到FreeMo的表現最好（Audio2Body也還不錯）。

作者介紹

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

一作為Xu Jing，來自中科大。

通訊作者為京東AI平臺與研究部AI研究院副院長，京東集團技術副總裁，IEEE Fellow梅濤。

剩余3位作者分別位來自京東AI的研究員Zhang Wei、白亞龍以及中科大的孫啟彬教授。

論文地址：
https://arxiv.org/abs/2203.02291

代碼已開源：
https://github.com/TheTempAccount/Co-Speech-Motion-Generation

本文來自微信公眾號 “量子位”（ID：QbitAI），36氪經授權發布。

0

京東人工智能開放平臺

京東人工智能開放平臺

0

0條點評

咨詢產品

免費試用

通用文字識別，基于深度學習技術，利用OCR技術，依托京東海量優質數據為用戶提供多場景、高精度的圖片文字檢測和識別服務。

京東人工智能開放平臺-圖像搜索

京東人工智能開放平臺-圖像搜索

0

0條點評

咨詢產品

免費試用

基于京東相關業務數億級圖片數據訓練模型，支持自定義商品圖圖庫，可在各種場景下圖庫中搜索相同或者相似的圖片。

客戶案例

暫無

京東人工智能開放平臺-語音識別

京東人工智能開放平臺-語音識別

0

0條點評

咨詢產品

免費試用

通過在傳統家電產品中植入京東的模塊并連接京東云的方式，使用戶能用一款APP控制所有接入的產品。

合作品牌

暫無

京東人工智能開放平臺-文字識別

京東人工智能開放平臺-文字識別

0

0條點評

咨詢產品

免費試用

基于深度學習技術，利用光學字符識別技術，依托京東海量優質數據為用戶提供多場景、高精度的圖片文字檢測和識別服務。

客戶案例

暫無

京東人工智能開放平臺-京東眾智

京東人工智能開放平臺-京東眾智

0

0條點評

咨詢產品

免費試用

京東眾智——值得信賴的AI數據，標注與采集平臺。

客戶案例

暫無

相關產品

最新文章

關注 36氪企服點評公眾號

打開微信掃一掃

為您推送企服點評最新內容

消息通知

咨詢入駐

商務合作