Oct, 2023

音视频检索的两阶段三元组损失训练及课程增强

TL;DR通过课程学习引导,本研究提出了一种两阶段训练范式,从半硬三元组到困难三元组,来优化跨模态检索模型的性能。在两个音视频数据集上进行的广泛实验结果显示,与当前最先进方法 MSNSCA 相比,我们提出的方法在 AVE 数据集上的视听跨模态检索任务的平均均值平均准确率 (MAP) 方面有显著提升,约为 9.8%,表明我们的方法的有效性。