InterGen: 复杂交互下基于扩散的多人运动生成
本文介绍了一种新的双分图扩散方法(BiGraphDiff),用于生成两个人之间的自然人体动作交互,通过模拟骨架节点之间的几何约束,利用基于 Transformer 的交互图扩散模型与先进的动作方法相结合。结果表明,该方法在人体交互生成任务的主要基准测试上实现了最新的最优结果。
Jan, 2023
生成人际动作互动可以根据文本描述,应用于机器人、游戏、动画和元宇宙等多个领域;本文提出了在人际动作生成中困扰的问题以及解决方案,包括使用扩展了 InterHuman 数据集的 in2IN 扩散模型以及结合 in2IN 和 HumanML3D 进行模型组合的 DualMDM,进一步提高了个体多样性和对个体动态的控制。
Apr, 2024
我们介绍了跨人类运动扩散模型(CrossDiff),这是一种基于文本描述生成高质量人体运动的新方法。我们的方法使用共享的变换器网络在扩散模型的训练中整合了 3D 和 2D 信息,将运动噪声统一到一个特征空间中。这使得特征能够被解码为 3D 和 2D 运动表示,而不管它们的原始维度如何。CrossDiff 的主要优势在于其跨扩散机制,它允许模型在训练过程中将 2D 或 3D 噪声转化为清晰的运动。这种能力利用了 3D 和 2D 运动表示中的互补信息,捕捉了常常被单纯依赖 3D 信息的模型所忽视的复杂人体运动细节。因此,CrossDiff 有效地结合了两种表示的优势,生成了更加真实的运动序列。在我们的实验中,我们的模型在文本到运动基准上展示了具有竞争力的最新性能。此外,我们的方法始终提供了增强的运动生成质量,捕捉了复杂的全身运动细节。此外,在具有预训练模型的情况下,我们的方法适用于在训练过程中使用野外 2D 运动数据而无需 3D 运动的真实值来生成 3D 运动,凸显了其在更广泛应用和有效利用可用数据资源方面的潜力。
Dec, 2023
本文引入了 Motion Diffusion Model(MDM),这是一种经过精心设计的无分类器扩散生成模型,适用于人体运动领域,并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。
Sep, 2022
本文提出了一种针对数字人运动合成的解决方案,使用 Denoising Diffusion Probabilistic Model 中的扩散模型和多任务架构来表示不同类别的动作内容和不同内部类别行为的样式,并使用对抗性和物理规则来实现全局引导。实验结果表明,该方法能够产生高质量、逼真的人体运动,并有效验证了多任务架构的有效性。
Dec, 2022
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
提出了一种新方法,通过 hieraechical generation framework 来生成 3D 运动,以解决生成多样且长距离运动的挑战,并且在 NSM、COUCH 和 SAMP 数据集上的实验证明该方法在质量和多样性方面优于以前的方法。
Oct, 2023
模型 InterControl 利用大型语言模型规划器将人的交互描述转化为接触计划,通过基于接触计划的空间可控运动生成方法实现交互生成,进而实现对每个人的每个关节的灵活空间控制。
Nov, 2023
DiverseMotion 是一种新的方法,通过保持运动多样性,在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。
Sep, 2023
我们提出了 InterHandGen,这是一个学习两只手相互作用生成先验的新框架。通过从我们的模型进行抽样,可以产生合理且多样化的双手形状,可以与或没有对象进行近距离交互。我们的先验可以整合到任何优化或学习方法中,以减少在不适定设置中的歧义。我们的关键观察是,直接建模多个实例的联合分布由于其组合性质而具有很高的学习复杂度。因此,我们建议将联合分布的建模分解为对事实单独实例分布的无条件建模和条件建模。我们介绍了一个扩散模型,它通过条件丢弃来学习单手分布的无条件和有条件性。在抽样方面,我们结合了防穿透和无分类器指导,以实现合理的生成。此外,我们建立了严格的两只手合成评估协议,在可信度和多样性方面,我们的方法明显优于基准生成模型。我们还证明,我们的扩散先验可以提高从野外单目图像中重建两只手的性能,达到新的最高准确度。
Mar, 2024