在场景中根据文本控制生成人类互动动作
本文介绍了使用文本描述生成多样的 3D 人类动作的方法,并提出了 TEMOS 框架,它是一种基于变分自编码器的文本条件生成模型,可以产生多种不同的人体动作,实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。
Apr, 2022
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
May, 2024
通过结合语言结构辅助模块和上下文感知渐进推理模块,我们提出了一种细粒度的方法,用于生成支持精确文本描述的高质量、有条件的人体动作序列。实验证明,我们的方法在 HumanML3D 和 KIT 测试集上胜过了基于文本驱动的动作生成方法,并能够根据文本条件生成更好的视觉确认动作。
Sep, 2023
基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点,本文提出了使用多角度注意机制的两阶段方法,即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制,通过生成变压器实现文本驱动的运动生成,在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术,并实现了精细合成和动作生成。
Sep, 2023
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生成高多样性和保真度的多主体运动序列的方法。
May, 2024
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型,对大量 3D 骨骼序列进行内容检索,实现了相应的定量度量评估。
May, 2023
本文探讨了从文本生成 3D 全身运动的问题,并提出了运动令牌的使用方法,结合神经机器翻译模型进行任务的处理,通过实验数据对比,表明我们的方法在这两个任务上具有优越性。
Jul, 2022
该论文提出了 TMR 方法,利用对比损失结构化跨模态潜在空间,提高文本到 3D 人体运动检索的性能,并在多个数据集上验证了其优越性能,同时也展示了其在时刻检索方面的潜力。
May, 2023
提出了一种基于强化学习的方法来处理 3D 室内场景中虚拟人类与环境以及物体的交互,包括生成运动模型、创新的碰撞回避奖励函数、基于标记体和半径场的交互感知奖励函数以及训练策略等多个方面,实验结果表明,该方法在运动的自然性和多样性方面都优于现有的人 - 场景交互综合框架。
May, 2023
本文提出了一种方法,将开放词汇场景编码器与架构相结合,建立了文本和场景之间的强大连接;方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器,确保了一个共享的文本 - 场景特征空间,并通过引入两种新的正则化损失,用于回归目标对象的类别和尺寸,在条件运动生成时对场景编码器进行微调;通过在 HUMANISE 数据集上进行的评估和知觉研究,我们的方法相比先前最先进的基准模型,可以使目标对象距离指标减少高达 30%;此外,我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。
Apr, 2024