迪士尼研究所和幾所大學的研究員們撰寫了一份新報告,報告稱能通過深度學習來程序化制作語音動畫。這種系統從人類演講的音頻材料中抽樣,再自動產生搭配的口型動畫。這種方法應用方面很廣,能提高語音動畫制作的效率,能在社交VR設置中通過實時模仿演講做出更像的社交vr交互,不勝枚舉。

研究者們來自于迪士尼研究中心,東安格利亞大學,加利福尼亞大學,加州理工學院和卡內基梅隆大學,一起撰寫了一篇名為“深度學習方法產生語音動畫”的文章。這篇文章寫到有一種系統能通過“深度學習/神經網絡”的訓練,用八個小時讀取某一位說話人的參考畫面(2543個句子),最后通過各種演講中的音素和音素的組合教會系統口型。
如下:右臉是參考畫面。視頻訓練后,只基于音頻輸入,左臉上的嘴根據系統產生口型。
訓練過的系統之后能分析任何一位說話人的音頻,自動產生相應的嘴型,再應用到產生自動語音動畫的臉部模型中。研究者們說這個系統是與說話人獨立的,而且能去模仿別的語言。
“通過一種簡單而有效的學習方法,系統能自動產生看起來自然的語音動畫,并且是與語音輸入同步的。我們的方法是:使用變化的的窗口預測,通過精確地捕捉自然動作和可視的協同發音效應,學習任意非線性映像,從音素輸入序列到口型動作。這種方法有幾大優勢特質:實時運作,要求最小參數調音,概括產生新的輸入語音序列,易于編輯產生程式化的感情豐沛的演講,并且與現有的動畫重新定向方法兼容。
以前,與動畫角色錄音配套的動畫都是由熟練的動畫設計師純手工制作的。雖然這種系統沒法做到你所期待的,像制成動畫里一樣高還原度的語音動畫,但它可以用來制作動畫的初稿,或者制作人為無法模擬的語音動畫,比如說大型角色扮演游戲中非玩家角色的對話,或是預算低而雇不起動畫設計師的項目(教學視頻,培訓視頻,學術項目等等)。
至于VR,這種系統能通過實時模擬用戶嘴型,使社交VR更真實。真實的口型軌跡(光學的或其它方式)可能是最精確的模擬演講方式,但是像這樣程序化產生語音動畫的系統才是目前實用的方法,除非有一天口型軌跡硬件已經廣泛使用了。
一些社交VR應用已經使用了各種系統來模擬口型;Oculus(歐酷來)也提供了一款唇同步插件給Unity,用來通過語音輸入模擬口型。但是上文的這種系統,基于新的深度學習,它似乎給語音動畫帶來前所未有的細節和準確性,意義重大。
責任編輯:吳一波
相關推薦
迪士尼將和AR公司合作建設神秘實驗室
7月18日上午,美國增強現實創業公司MagicLeapCEO羅尼·阿伯維茨(RonyAbovitz)表示,該公司將與迪士尼的合作在舊金山開發一處秘密實驗室,邀請開發者在其發布產品前在那里測試項目。該實驗室其實并不算秘密,阿伯維茨披露它的位置——位于盧卡斯影業舊金山Presidio園區里的Yoda噴泉附近。阿伯維茨還表示,目前為止已經有數千人見過該公司的技術。但可惜的是