

位于瑞士洛桑的最大普朗克計算機科學研究所和當地聯邦理工學院的研究人員,近日展示了一套基于單目像機的動作捕捉方案:MonoPerfCap。
很難想象,如今往往需要通過龐大的實驗室來完成的動作捕捉項目,居然通過單目設備就能完成,而且還無需對人體進行標記。考慮到傳統的動作捕捉往往需要捕捉3D和深度信息,單臺攝像設備是不能夠完成的,因此我們也十分期待它的效果。
單目相機完成動作捕捉需要克服和完成的挑戰有很多,例如遮擋、深度數據等等,表現出來的情況可能會涉及到動作連貫性、人物變形、錯位、陰影等。
據青亭網了解,為了完成單目相機實現動作捕捉的目標,研發團隊決定利用卷積神經網絡(CNN),通過稀疏的2D或3D人體姿態圖像檢測,來解決這個問題。簡單來講,MonoPerfCap方案大致分為3個步驟。
1,手持相機對被追蹤的人進行360度旋轉掃描,在此過程中軟件將會檢測人與物理世界的比例,并以此來計算虛擬人物的數字骨骼。
2,軟件會模擬計算出人體數字骨骼的關節點,在低維軌跡子空間的基礎上,通過時間段內的連續動作差異等計算機視覺方面的技術來推測出人體的運動,并且這個過程還用到了卷積神經網絡來不斷優化,以此來彌補單目捕捉不足的弱勢。
3,通過自動提取輪廓,并對人物紋理進一步優化的非剛性表面對齊方式,來提升輸入的匹配性。
這種動作捕捉方案比較可以有效的追蹤,例如人體360度旋轉、舞蹈動作等人體運動。
關于這套單目動補方案定性和定量評估,該團隊介紹其在準確性、魯棒性和可處理的場景復雜度等方面,均明顯優于以往任何的單目方案。
從演示視頻來看,這套單目動補方案確實比較出色,尤其是柔性運動方面,雖然在部分細節方面可圈可點,但考慮到其畢竟基于單目,總之值得點贊。
根據研究人員描述,該方案在準確性和穩定性方面已經比之前大幅進步,即便在復雜的物理背景下也可以進行清晰的動作捕捉。
那么,這套方案可應用在哪些領域呢?
除了一些常規的娛樂場景外,最直接,聯系最密切的就是全息通話/AR視頻通話,人們可以直接和虛擬的全息人進行自然的交流。并且,由于只需要一臺攝像機(現在的手機至少都有一個攝像頭了吧),入門門檻較低,因此有望被廣泛采用。
對于高度逼真的全息通話來講,MonoPerfCap可能還做不到,尤其是在面部表情、細節渲染方面,不過其作為娛樂化的應用方案也是一個不錯的選擇。
據悉,這項研究將于8月份的Siggraph計算機圖形峰會上進行展示,并已經公布相關學術論文,感興趣的可以自行閱讀。