DDT：一种基于扩散驱动的基于 Transformer 框架的视频人类网格恢复方法

Mar, 2023

DDT：一种基于扩散驱动的基于 Transformer 框架的视频人类网格恢复方法

DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh Recovery from a Video

Ce Zheng, Guo-Jun Qi, Chen Chen

TL;DR本文提出了一种基于扩散驱动变换器的视频人体网格复原框架 (DDT)，能有效地提高运动平滑性和时间连续性，并且具有较高的效率和因果性，能够广泛应用于各种实际场景。

Abstract

human mesh recovery (HMR) provides rich human body information for various real-world applications such as gaming, human-computer interaction, and virtual reality. Compared to single image-based methods, video-based methods can utilize temporal information to further improve performanc

human mesh recovery video-based hmr diffusion-driven transformer motion smoothness temporal consistency

发现论文，激发创造

分布和深度感知变换器用于三维人体网格恢复

通过采用转换器的端到端架构，利用分布和场景深度信息，实现了精确人体网格还原技术，并在处理无监督数据的某些场景下表现出优越性能，同时在受控数据集上与最先进的 HMR 方法保持竞争力。

Mar, 2024

分布对齐扩散的人体网格恢复

通过扩散过程恢复人体网格，以解决深度模糊和自遮挡问题，并提出注入特定输入分布信息的分布对齐技术（DAT），通过简化网格恢复任务提供有用的先验知识。

Aug, 2023

在 4D 中重建和跟踪人类的 Transformers 技术

本文介绍了一种通过 4DHumans 方法从单眼视频中追踪和重建人体动作的技术，通过 transformerized 版本的 HMR 2.0 网络实现人体重建，使用 3D 重建作为输入在 3D 跟踪系统中进行多人追踪并通过深度学习算法实现姿态和动作的识别。

May, 2023

TransFusion: 一种实用有效的基于 Transformer 的扩散模型，用于 3D 人体动作预测

TransFusion 是一种基于扩散的 3D 人体动作预测模型，它能够生成更有可能发生的样本并保持一定程度的多样性，通过使用 Transformer 作为骨干，以及在浅层和深层之间使用长跳连接和离散余弦变换来建模运动序列，改善性能，并与使用额外模块的先前基于扩散的模型相比，我们将所有输入（包括条件）都视为令牌，创造出比现有方法更精简的模型。我们对基准数据集进行了广泛的实验研究，以验证我们的人体动作预测模型的有效性。

Jul, 2023

使用 Transformer 的视频传播经验研究

本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

May, 2023

基于扩散模型的概率人体网格恢复的生成方法

通过使用基于扩散的人体网格恢复（Diff-HMR）的生成方法框架，本文提出了一种解决从给定 2D 图像重建 3D 人体网格的问题的方法，来解决任务的固有模糊度。验证实验表明，该框架能够以概率的方式有效模拟任务的固有模糊度。

Aug, 2023

Human4DiT: 基于 4D 扩散变换的自由观看人体视频生成

我们提出了一种新颖的方法，可以从单个图像在任意视角下生成高质量、时空连贯的人类视频。我们的框架结合了 U-Nets 的精确条件注入和扩散变换器的在视角和时间上捕捉全局相关性的优势。核心是一个级联的 4D 变换器架构，可以分解关注点以跨视角、时间和空间维度，实现对 4D 空间的高效建模。我们通过将人类身份、相机参数和时间信号注入到相应的变换器中来实现精确的条件设定。为了训练这个模型，我们策划了一个跨图像、视频、多视角数据和 3D/4D 扫描的多维数据集以及多维训练策略。我们的方法克服了以 GAN 或基于 UNet 的扩散模型为基础的先前方法在处理复杂动作和视角变化时的局限性。通过广泛的实验证明，我们的方法能够合成逼真、连贯和自由观察的人类视频，为虚拟现实和动画等领域的先进多媒体应用铺平了道路。我们的项目网站为 https URL。

May, 2024

多视角人体网格翻译器

本文提出一种新的多视角人体网格翻译器（MMT）模型，通过利用多视角图像和视觉转换器来解决单视角方法的病态问题，同时在编码和解码阶段融合不同视角的特征，并通过交叉视图对齐来确保令牌集中于人类姿势和形状。实验表明，MMT 模型在人体网格恢复任务上表现出很大优势，特别是在具有挑战性的 HUMBI 数据集上的 MPVE 方面，优于现有的单视角或多视角模型，提高 28.8％。

Oct, 2022

DDMT: 去噪扩散蒙版变换模型用于多元时间序列异常检测

基于重建模型的适应动态邻居蒙版及 Transformer 和 Denoising Diffusion Model 的相结合的新框架 DDMT，在多元时间序列异常检测方面取得了具有先进性的结果。

Oct, 2023

基于评分引导的扩散方法用于三维人体恢复

我们提出了一种基于得分指导的人体网格恢复（ScoreHMR）方法，用于解决三维人体姿势和形状重建的反问题。

Mar, 2024