May, 2023

通过MildTriple Loss实现运动和文本的跨模态检索

TL;DR本文提出了一种基于transformer和triplet loss的cross-modal retrieval模型来解决human motion sequences和text之间的检索问题,并提出了一种新的MildTriple Loss来减少semantic conflicts的影响,经实验证明,在HumanML3D和KIT Motion-Language数据集上具有较高的检索召回率。