Nov, 2022

音视频交叉模态检索中标签空间的完整三元组损失

TL;DR本文提出了一种新的 AV-CMR 模型,通过直接预测标签并使用完整的交叉三元组损失来优化语义特征,从而优化音频 - 视觉数据之间的内在相关性,解决了模型训练敏感性问题和选取困难问题。在两个音频 - 视觉双重检查数据集上的广泛实验结果表明,与现有的 TNN-CCCA 方法相比,平均 MAP 提高了约 2.1%,验证了我们提出的模型的有效性。