MoRAG -- 多重融合检索增强生成的人类运动生成

Sep, 2024

MoRAG -- 多重融合检索增强生成的人类运动生成

MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion

Kalakonda Sai Shashank, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla

TL;DR本研究提出MoRAG，一种基于多部分融合的检索增强生成策略，旨在解决文本驱动的人类运动生成中的拼写错误和改写问题。通过改进的运动检索过程，我们的创新方法增强了运动扩散模型的表现，展示了其作为即插即用模块在运动生成领域的潜力。

Abstract

We introduce MoRAG, a novel multi-part fusion based Retrieval-Augmented Generation strategy for text-based human Motion Generation. The method enhances motion →

发现论文，激发创造

ReMoDiffuse: 基于检索辅助的运动扩散模型

本研究提出了一种基于扩散模型的动作生成框架ReMoDiffuse，它集成了一种检索机制以改善去噪过程，提高了文本驱动动作生成的通用性和多样性，并且在更多样化的动作生成方面表现出色，优于现有的最先进方法。

Apr, 2023

使用对比式 3D 人体动作合成进行文本到动作的检索

该论文提出了TMR方法，利用对比损失结构化跨模态潜在空间，提高文本到3D人体运动检索的性能，并在多个数据集上验证了其优越性能，同时也展示了其在时刻检索方面的潜力。

May, 2023

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的Motion Transformer模型，对大量3D骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

优先级中心的离散潜空间人体运动生成

文本到动作生成是一项艰巨的任务，本文介绍一种优先级中心的运动分散扩散模型（M2DM），利用基于Transformer的VQ-VAE得出简洁的、离散的动作表示，通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模型，它采用了一种创新的噪声调度方式，根据整个运动序列中每个动作标记的重要性来确定。该方法在逆扩散过程中保留了最显著的动作，从而产生更丰富多样的语义动作。在HumanML3D和KIT-ML数据集上进行的综合实验证实了我们的模型在保真度和多样性方面超过了现有技术，尤其对于复杂的文本描述。

Aug, 2023

多样动作：通过离散扩散实现多样人体动作生成

DiverseMotion 是一种新的方法，通过保持运动多样性，在基于文本描述的高质量人体运动合成中为优先适应训练运动而牺牲动作多样性的现有方法提供解决方案。

Sep, 2023

Fg-T2M：基于扩散模型的精细文本驱动人体运动生成

通过结合语言结构辅助模块和上下文感知渐进推理模块，我们提出了一种细粒度的方法，用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明，我们的方法在HumanML3D和KIT测试集上胜过了基于文本驱动的动作生成方法，并能够根据文本条件生成更好的视觉确认动作。

Sep, 2023

使用ChatGPT改进的描述生成精细人类动作

通过细粒度人体动作扩散模型 (FG-MDM) ，我们成功地生成了符合文本描述的多样化和高质量的人类动作，即使在训练数据分布之外。

Dec, 2023

OMG：通过混合控制器实现开放词汇的动作生成

基于OMG框架，我们通过预训练和微调将文本转动作的生成过程进行改进，并引入motion ControlNet和Mixture-of-Controllers模块，实现了针对零样本文本生成动作的显著提升。

Dec, 2023

从细粒度文本描述生成运动

建立一个大规模的细粒度文本-运动数据集FineHumanML3D，并设计一种新的文本生成运动模型FineMotionDiffuse，以更好地生成空间/时间上的综合动作。

Mar, 2024

MotionLLM: 多模式运动语言学习与大型语言模型

通过使用预训练的 LLM 模型进行微调，本研究提出了 MotionLLM，一个简单且通用的框架，可实现单人和多人运动生成以及动作字幕生成。

May, 2024