谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

关注+2024-04-02作者：路西蓝

4月2日消息:谷歌的研究人员最近推出了一款名为 vlogGER 的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向 VLOGGER 输入图像和语音，就可以获得逼真的视频效果。

VLOGGER 的创新之处在于采用了全新的多阶段扩散模型架构，结合了文本生成图像模型和时空控制，从而提升了视频生成的逼真效果和丰富动作。研究人员在多个数据集上对 VLOGGER 进行了综合测试，结果显示 VLOGGER 在视频质量、物体还原性和时序一致性等方面表现出色，同时还能生成丰富的上半身和手势动作。

要制作逼真的人物动画视频通常需要大量的人工调整和修补，以确保动作流畅自然。而 VLOGGER 的创新之处在于，其无需针对每个新人物重新训练模型，也不依赖于人脸检测框选区域，直接生成完整目标图像。此外，VLOGGER 还考虑到了现实中复杂的交流场景，如可见躯干、不同身份等因素，这对正确合成有效交流的人物动作至关重要。

在技术实现方面，VLOGGER 首先通过 Transformer 神经网络处理音频波形输入，生成一系列3D 面部表情和身体姿势参数，用于控制虚拟人物在视频中的动作。其次，在空间和时间上进行条件控制，生成高质量、任意长度的视频。VLOGGER 还引入了一种 "时序外推" 的技术，允许模型迭代生成任意长度的视频片段，同时保持时序一致性。为了提高生成效果，VLOGGER 还采用了级联扩散方法，对基础分辨率的视频进行超分辨重建，生成高质量的影像。

VLOGGER 的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。