DiffGaze: 360 度图像上连续注视序列生成的扩散模型
人类动作预测是虚拟现实(VR)应用中的重要问题,本论文提出了一种新的注视引导去噪扩散模型(GazeMoDiff),通过学习眼球注视和人体运动之间的时空相关性,生成逼真的人体运动,实验证明本方法在平均位移误差上超过了现有方法。
Dec, 2023
我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练,我们的扩散模型获得了合理的时间一致性,并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失,以优化由动态 NeRF 参数化的 4D 表示,从而消除多个扩散模型引起的差异,实现生成空间时间一致的 4D 内容。此外,我们设计了一个锚点损失,以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明,我们的方法相比之前的方法具有更好的性能。
May, 2024
本文提出了 interpGaze,一种用于控制眼球注视方向的新框架。通过设计由编码器,控制器和解码器构成的模型,interpGaze 实现了精确控制眼球注视方向和持续插值。实验验证表明,interpGaze 在图像质量和重定向精度方面优于现有方法。
Oct, 2020
基于扩散模型的 360 度全景图像生成任务的技术报告,提出了一种圆形混合策略,以实现几何连续性,同时提出了文本到 360 度全景图像和单图像到 360 度全景图像两个任务的模型
Nov, 2023
我们提出了一种新颖的方法,可以从单个图像在任意视角下生成高质量、时空连贯的人类视频。我们的框架结合了 U-Nets 的精确条件注入和扩散变换器的在视角和时间上捕捉全局相关性的优势。核心是一个级联的 4D 变换器架构,可以分解关注点以跨视角、时间和空间维度,实现对 4D 空间的高效建模。我们通过将人类身份、相机参数和时间信号注入到相应的变换器中来实现精确的条件设定。为了训练这个模型,我们策划了一个跨图像、视频、多视角数据和 3D/4D 扫描的多维数据集以及多维训练策略。我们的方法克服了以 GAN 或基于 UNet 的扩散模型为基础的先前方法在处理复杂动作和视角变化时的局限性。通过广泛的实验证明,我们的方法能够合成逼真、连贯和自由观察的人类视频,为虚拟现实和动画等领域的先进多媒体应用铺平了道路。我们的项目网站为 https URL。
May, 2024
本文介绍了一种基于差分方法的凝视估计技术,使用差分卷积神经网络直接预测同一受试者的两个眼睛输入图像之间的凝视差异,然后利用推断出的差异来预测新眼睛样本的凝视方向。实验结果表明,该方法即使只使用一个校准样本或在后续使用受试者特定的凝视适应方法时,也始终优于现有的方法。
Apr, 2019
本文提出了一种新颖的可控凝视的人脸生成任务,方法使用文本描述输入来生成具有相应凝视特征的人脸图像,并通过面部草图和 3D 人脸模型实现了凝视的文本到人脸的转换。实验证明了方法的有效性,同时作者将提供数据集和代码以供今后研究使用。
Apr, 2024
该研究提供了 Gaze360 数据集和方法,可以在不受限制的图像中进行强大的三维凝视估计,通过时间信息扩展了现有模型,直接输出凝视不确定性的评估,并展示了在不同的凝视基准数据集上推广的性能,最后,在超市环境中应用该模型可用于评估客户的注意力。
Oct, 2019
我们介绍了第一个注视引导的手 - 物体交互数据集,并提出了一个新颖的注视引导的手 - 物体交互综合任务。我们的数据集 GazeHOI 通过同时建模注视、手和物体的交互,包含 479 个序列,平均持续时间为 19.1 秒,812 个子序列和 33 个具有不同大小的物体。我们提出了一个基于注视引导的手 - 物体交互扩散模型 GHO-Diffusion 的分层框架。我们的广泛实验突出了数据集的独特性及我们方法的有效性。
Mar, 2024
通过将高容量的二维扩散模型与形状引导扩散相结合并利用逆渲染技术,从单一图像中逐步合成多个视角的完全纹理化高分辨率三维网格,实现了广泛的服装人物 360 度合成的照片级别结果。
Nov, 2023