May, 2023

通过 MildTriple Loss 实现运动和文本的跨模态检索

TL;DR本文提出了一种基于 transformer 和 triplet loss 的 cross-modal retrieval 模型来解决 human motion sequences 和 text 之间的检索问题,并提出了一种新的 MildTriple Loss 来减少 semantic conflicts 的影响,经实验证明,在 HumanML3D 和 KIT Motion-Language 数据集上具有较高的检索召回率。