语义增强:用增强的文本线索提升动态生成
本文介绍了使用文本描述生成多样的 3D 人类动作的方法,并提出了 TEMOS 框架,它是一种基于变分自编码器的文本条件生成模型,可以产生多种不同的人体动作,实验证明 TEMOS 框架在 KIT Motion-Language 基准测试中取得了显著的改进。
Apr, 2022
使用视觉语言模型提取和保留有意义的运动语义,该方法通过可微分模块渲染 3D 动作并将高级运动语义与提取的语义嵌入进行对齐,以确保保留微观动作细节和高级语义,实验证明了该方法在产生高质量的运动重定向结果的同时准确保留了运动语义。
Dec, 2023
本研究提出了一种基于运动状态对齐的视频语义分割方法,该方法解决了信息不一致性和计算成本等难点,实现了像素级状态一致性和区域级时间一致性,能够以低计算成本高精度地分割出视频语义区域,并在 Cityscapes 和 CamVid 数据集上验证了其优越性。
Apr, 2023
本文提出了一种方法,将开放词汇场景编码器与架构相结合,建立了文本和场景之间的强大连接;方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器,确保了一个共享的文本 - 场景特征空间,并通过引入两种新的正则化损失,用于回归目标对象的类别和尺寸,在条件运动生成时对场景编码器进行微调;通过在 HUMANISE 数据集上进行的评估和知觉研究,我们的方法相比先前最先进的基准模型,可以使目标对象距离指标减少高达 30%;此外,我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。
Apr, 2024
提出了一种利用分层语义图实现对人体运动生成的细粒度控制的方法,通过将运动描述分解成三个层次的语义图,从整体到局部的结构帮助全面理解运动描述和对运动生成进行细粒度控制,并对分解的文本到运动扩散过程进行了优化,通过修改分层语义图的边权重,实现了生成运动的持续细化,具有超过基准数据集 HumanML3D 和 KIT 的优越性能。
Nov, 2023
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
May, 2024
Semantic Gesticulator 是一个新颖的框架,旨在通过强有力的语义对应性合成伴随语音的逼真手势,通过大型语言模型的生成检索框架,有效地从动作库中检索合适的语义手势候选,以生成与语音节奏相匹配的高质量手势,通过语义对齐机制确保最终动画的自然性,证明了系统在生成节奏一致和语义明确的手势方面的稳健性。
May, 2024
从动作生成文本的研究,关注体部特定区域与动作的时间同步,通过运动编码和时空注意模型的结合,引入引导注意力及自适应门控训练策略,实现解释性生成并在性能上有所提升。
Oct, 2023
基于去噪扩散模型,我们提出了一种用于文本控制的场景感知运动生成方法。该方法通过预训练场景不可知的文本到运动扩散模型,并利用包含详细场景信息的增强数据对模型进行微调,产生逼真多样的人 - 场景互动。
Apr, 2024