Apr, 2024

基于开放词汇的情景和文本背景下的基础人体运动生成(GHOST)

TL;DR本文提出了一种方法,将开放词汇场景编码器与架构相结合,建立了文本和场景之间的强大连接;方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器,确保了一个共享的文本 - 场景特征空间,并通过引入两种新的正则化损失,用于回归目标对象的类别和尺寸,在条件运动生成时对场景编码器进行微调;通过在 HUMANISE 数据集上进行的评估和知觉研究,我们的方法相比先前最先进的基准模型,可以使目标对象距离指标减少高达 30%;此外,我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。