DDT:一种基于扩散驱动的基于 Transformer 框架的视频人类网格恢复方法
通过采用转换器的端到端架构,利用分布和场景深度信息,实现了精确人体网格还原技术,并在处理无监督数据的某些场景下表现出优越性能,同时在受控数据集上与最先进的 HMR 方法保持竞争力。
Mar, 2024
本文介绍了一种通过 4DHumans 方法从单眼视频中追踪和重建人体动作的技术,通过 transformerized 版本的 HMR 2.0 网络实现人体重建,使用 3D 重建作为输入在 3D 跟踪系统中进行多人追踪并通过深度学习算法实现姿态和动作的识别。
May, 2023
TransFusion 是一种基于扩散的 3D 人体动作预测模型,它能够生成更有可能发生的样本并保持一定程度的多样性,通过使用 Transformer 作为骨干,以及在浅层和深层之间使用长跳连接和离散余弦变换来建模运动序列,改善性能,并与使用额外模块的先前基于扩散的模型相比,我们将所有输入(包括条件)都视为令牌,创造出比现有方法更精简的模型。我们对基准数据集进行了广泛的实验研究,以验证我们的人体动作预测模型的有效性。
Jul, 2023
本研究介绍了 Video Diffusion Transformer(VDT),它首次在基于扩散的视频生成中提出了 Transformer 的使用,通过模块化的时间和空间注意机制实现了 Transformer 块,并能够通过简单的令牌空间串联实现灵活的条件信息,VDT 的模块化设计促进了一种时空解耦的训练策略,其在视频生成、预测和动力学建模(即基于物理的 QA)任务上,包括自动驾驶,人类行动和基于物理模拟等领域的应用,表现出了出色的性能。
May, 2023
通过使用基于扩散的人体网格恢复(Diff-HMR)的生成方法框架,本文提出了一种解决从给定 2D 图像重建 3D 人体网格的问题的方法,来解决任务的固有模糊度。验证实验表明,该框架能够以概率的方式有效模拟任务的固有模糊度。
Aug, 2023
我们提出了一种新颖的方法,可以从单个图像在任意视角下生成高质量、时空连贯的人类视频。我们的框架结合了 U-Nets 的精确条件注入和扩散变换器的在视角和时间上捕捉全局相关性的优势。核心是一个级联的 4D 变换器架构,可以分解关注点以跨视角、时间和空间维度,实现对 4D 空间的高效建模。我们通过将人类身份、相机参数和时间信号注入到相应的变换器中来实现精确的条件设定。为了训练这个模型,我们策划了一个跨图像、视频、多视角数据和 3D/4D 扫描的多维数据集以及多维训练策略。我们的方法克服了以 GAN 或基于 UNet 的扩散模型为基础的先前方法在处理复杂动作和视角变化时的局限性。通过广泛的实验证明,我们的方法能够合成逼真、连贯和自由观察的人类视频,为虚拟现实和动画等领域的先进多媒体应用铺平了道路。我们的项目网站为 https URL。
May, 2024
本文提出一种新的多视角人体网格翻译器(MMT)模型,通过利用多视角图像和视觉转换器来解决单视角方法的病态问题,同时在编码和解码阶段融合不同视角的特征,并通过交叉视图对齐来确保令牌集中于人类姿势和形状。实验表明,MMT 模型在人体网格恢复任务上表现出很大优势,特别是在具有挑战性的 HUMBI 数据集上的 MPVE 方面,优于现有的单视角或多视角模型,提高 28.8%。
Oct, 2022
基于重建模型的适应动态邻居蒙版及 Transformer 和 Denoising Diffusion Model 的相结合的新框架 DDMT,在多元时间序列异常检测方面取得了具有先进性的结果。
Oct, 2023