当前位置：首页 > news >正文

Facebook提出Pica模型，为Quest 2带来实时逼真虚拟化身渲染

news 2024/5/20 8:09:59

“
利用Pica模型，单个Oculus Quest 2头显能够在同一场景实时渲染5个虚拟化身
”

映维网丨来源

映维网&realcat丨编辑

就如同个人计算机和智能手机在过去四十五年里（并正继续）改变了世界一样，Facebook坚信增强现实和虚拟现实将成为未来五十年里我们工作、娱乐和联结的主要方式。

为了克服人与人之间，以及人与机会之间的物理距离挑战，团队正在积极开展一个名为Codec Avatars的项目。Codec Avatars旨在利用突破性的3D捕获技术和人工智能系统，从而帮助人们在未来快速轻松地创建逼真的虚拟化身，并令虚拟现实中的社交联系变得如同现实世界般自然和常见。

日前，Facebook公布了一份即将在今年6月CVPR介绍的论文。

简单来说，只对屏幕空间中的虚拟化身的面部可见像素进行解码，可以在计算受限的平台实现高保真的面部动画。

对于轻量级的编解码器PiCA，团队进行了两项主要的技术创新，从而允许其通过小模型来实现高质量解码：学习的位置编码函数；以弱监督方式训练的全卷积密集网格解码器。

团队指出，对于实现远距离三维真实面对面通信，在虚拟现实或增强现实中与图片级真实感的虚拟化身进行通信是一条富有前景的途径。在名为《Pixel Codec Avatars》的论文中，研究人员提出了一种3D人脸的深度生成模型Pixel Codec Avatars（PiCA），论文链接见文末。

Facebook写道，PiCA不仅具备最先进的重建性能，而且在执行期间能够实现高效计算和自适应渲染条件。

这个模型结合了两个核心思想：（1）用于解码空间变化特征的完全卷积结构；（2）渲染自适应的每像素解码器。这两种技术是通过一个密集表面表示集成，其中密集表面表示以弱监督方式从低拓扑网格追踪学习而成。

图1是一个在虚拟现实情景中实现的多人远程会议配置。

在正常的社交距离下，头部仅占据显示器像素的一个子集，其覆盖范围很大程度上取决于与观看者之间的距离。由于自身遮挡，从任何视角都看不到大约一半的头部。图1上半部分是生成的和光栅化的几何体，以及显示相应视图中可见像素的纹理贴图；图2下半部分展示了渲染的虚拟化身以及它们覆盖整个图像的像素百分比。

为了避免在不影响最终渲染的面区域中浪费计算，PiCA仅在几何体光栅化覆盖的图像区域中使用每像素解码。类似于隐式神经渲染的最新进展，这种解码器依赖于以人脸为中心的位置编码来产生高度详细的图像。

团队采用两种策略来有效地生成这样的编码。首先，在纹理空间中利用卷积网络的空间共享计算，以降低的分辨率（256×256）产生空间变化的表情和视图特定代码。然后，通过一个预先计算的高分辨率（1K×1K）进行补充。为了获得更高的分辨率结果，团队进一步在10K分辨率下对信号进行1D位置编码（独立于纹理域的水平和垂直维度）。这种映射能够在高分辨率面部图像中实现清晰的空间细节。

监督（a）图像，（b）深度，以及（c）7K个顶点的粗略追踪网格。从中可以学习一个对应的密集面网格（d），分辨率为个65K顶点，甚至包括粗略追踪网格不提供任何信息的位置，如舌头。最终渲染（e）可以表示难以追踪的表情。

因为UV坐标的最佳编码值直接从数据中学习，所以低8维编码足以恢复高频。作为对比，使用正弦函数实现高细节的现有位置编码方案需要将维数增加20×，并且存在相应的计算成本。另外，等其他研究相比，PiCA在屏幕空间中不使用卷积，而是在每个贡献像素处应用shallow MLP。这样做的优势是避免了运动过程中的视觉伪影和立体不一致性，同时避免了在缩放、旋转和透视方面的挑战。

在不同性别和肤色被试的表情和视点测试中，PiCA实现了优于现有技术的重建效果。重要的是，PiCA模型的体积要小于最先进的基线模型，并且使得多人通信成为可能。利用Pica模型，单个Oculus Quest 2头显能够在同一场景实时渲染5个虚拟化身。