近日,一篇由迪士尼研究所和幾所大學的研究人員撰寫的論文發布,文章介紹了一種基于深度學習的程序語言動畫新方法。
該系統對人類說話錄音進行采樣,并使它自動生成匹配的嘴型動畫。該方法可以應用到從提高管道動畫的效率到使VR社交更有說服力,它可以在VR社交中實時化地呈現角色的演講內容。
迪士尼研究所、加拿大東加利福尼亞理工大學和卡內基梅隆大學的研究人員撰寫了這篇題為《廣義語音動畫深度學習方法》的論文。論文描述了一種已經用“深度學習/神經網絡”方法訓練的系統,利用單個揚聲器8小時的參考畫面(2543句),教導系統根據不同的語音單元(稱為音素)配合生成不同嘴型及其組合。
經過訓練的系統可以自主分析來自任何揚聲器的音頻,并自動產生相應的嘴型,然后將其用于動畫模型的自動語音生成。
在VR中,該系統可以通過用戶語音實時對應虛擬角色的嘴型,使其更加逼真。
一些社交應用已經在使用各種系統進行嘴形跟蹤。Oculus為Unity提供了一個嘴型同步插件,其原理是基于音頻輸入來確定角色說話嘴型。然而與迪士尼提供的新系統相比,細節性和準確性都差了些。