affordance learning considers the interaction opportunities for an actor in
the scene and thus has wide application in scene understanding and intelligent
robotics. In this paper, we focus on contextual affordance learn
在 3D 环境中,尽管在文本到运动合成方面取得了重大进展,但仍存在许多挑战,我们通过引入一种新的两阶段框架,使用场景赋能作为中间表示,有效地链接 3D 场景定位和条件运动生成,克服了生成多模态条件信号下的人类运动困难,特别是在缺乏广泛的语言 - 场景 - 运动数据对的有限数据训练时,验证了模型的出色泛化能力。