文本控制的运动短蓰:基于文本指导的人体运动时序定位
基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点,本文提出了使用多角度注意机制的两阶段方法,即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制,通过生成变压器实现文本驱动的运动生成,在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术,并实现了精细合成和动作生成。
Sep, 2023
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型,对大量 3D 骨骼序列进行内容检索,实现了相应的定量度量评估。
May, 2023
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
本文介绍了使用文本描述生成多样的 3D 人类动作的方法,并提出了 TEMOS 框架,它是一种基于变分自编码器的文本条件生成模型,可以产生多种不同的人体动作,实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。
Apr, 2022
提出了一种简单高效的运动生成模型,利用了状态空间模型进行建模,并通过分层时序 Mamba (HTM) 块和双向空间 Mamba (BSM) 块来处理时序和姿态信息,从而实现了高质量、长序列的运动生成和实时人体动作生成。
Mar, 2024
本文提出了一种方法,将开放词汇场景编码器与架构相结合,建立了文本和场景之间的强大连接;方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器,确保了一个共享的文本 - 场景特征空间,并通过引入两种新的正则化损失,用于回归目标对象的类别和尺寸,在条件运动生成时对场景编码器进行微调;通过在 HUMANISE 数据集上进行的评估和知觉研究,我们的方法相比先前最先进的基准模型,可以使目标对象距离指标减少高达 30%;此外,我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。
Apr, 2024
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
May, 2024
该论文提出了 TMR 方法,利用对比损失结构化跨模态潜在空间,提高文本到 3D 人体运动检索的性能,并在多个数据集上验证了其优越性能,同时也展示了其在时刻检索方面的潜力。
May, 2023
利用 BABEL 动作文本集合,设计了一种基于 Transformer 的 TEACH 方法,能够根据自然语言描述生成符合语义的 3D 人体动作,实现由多个动作组成的时间动作构成。
Sep, 2022
本研究介绍了 LGTM,一种面向文本到动作生成的新颖的本地到全局流程。LGTM 利用扩散式架构,旨在解决将文本描述准确转化为在计算机动画中语义一致的人体动作的挑战。我们通过引入两阶段的流程来克服语义差异的问题,首先使用大型语言模型将全局动作描述分解为特定部位的叙述,然后使用独立的身体部位运动编码器处理以确保准确的局部语义对齐。最后,基于注意力机制的全身优化器对运动生成结果进行细化,并确保整体一致性。实验结果表明,LGTM 在生成局部准确、语义对齐的人体动作方面取得了显著改进,标志着文本到动作应用的重要进展。
May, 2024