音视频检索的锚点感知深度度量学习
本文提出了一种新颖的抗噪声深度度量学习算法,称为密度感知度量学习,其通过将模型迭代地向集群的最密集区域移动来实现更快速的收敛和更高的泛化性,并对两个具有挑战性的跨模态人脸识别数据库和两个流行的物体识别数据库进行了详细的实验和分析,表明该方法具有卓越的收敛性、较短的训练时间以及比其他流行的深度度量学习方法更好的精度。
Apr, 2019
本文提出了一种名为 Densely-Anchored Sampling (DAS) 方案来解决深度度量学习中的数据稀疏问题,该方案结合了 DFS 和 MTS 来产生更多的嵌入以促进采样过程,从而提高了 DML 的性能。
Jul, 2022
本文提出了一种硬度感知的深度度量学习(HDML)框架,通过利用线性插值对嵌入空间进行自适应调整,生成相应的保留标签合成数据进行回收训练,以充分利用所有样本中 buried 的信息,从而使度量始终面对适当的困难程度。实验结果表明,本方法在 widely used 的 CUB-200-2011、Cars196 和 Stanford Online Products 数据集上表现出极具竞争力的性能。
Mar, 2019
本文提出了一种用于深度度量学习的新型内类别自适应增广(IAA)框架,通过生成自适应的合成样本来支持难例挖掘并提升度量学习损失,进一步通过邻居校正来修正不准确的估计,通过大量实验验证,它可以使检索性能提高 3% -6% 以上且优于现有的最高水平方法。
Nov, 2022
本文介绍了一种实现鲁棒的多模式人物表示以优化开放式音视频说话人验证的方法。通过探索多任务学习技术,我们提高了距离度量学习方法的性能,并展示了一个弱标签的辅助任务可以增加学习到的说话人表示的紧凑性。同时,我们将广义端到端损失(GE2E)扩展到多模态输入,并证明其在音视频领域可以达到竞争性的性能。最后,我们引入了一种非同步音视频采样的随机策略,该策略在训练时能改善泛化效果。我们的网络在说话人验证方面达到了最先进的水平,并在 VoxCeleb1-O/E/H 的三个官方试验列表中报告了 0.244%、0.252%、0.441% 的等错误率(EER),据我们所知,这是 VoxCeleb1-E 和 VoxCeleb1-H 的最佳已发表结果。
Sep, 2023
使用数据增强的领域自适应方法改进了代理度量学习,通过对鸟类图像、汽车图像、产品图像和衣物图像的实验表明,该方法显著提高了现有代理损失方法的效果,并获得了优于现有方法的结果。
Jan, 2024
本论文提出将数据的密度测量集成到 DML 的优化框架中,以在端到端的训练过程中自适应平衡类间相似性和类内变异性,通过在三种嵌入方式上增加密度适应性,不断地在三个公共数据集上展示清晰的改善。
Sep, 2019
本文提出了一种新的 AV-CMR 模型,通过直接预测标签并使用完整的交叉三元组损失来优化语义特征,从而优化音频 - 视觉数据之间的内在相关性,解决了模型训练敏感性问题和选取困难问题。在两个音频 - 视觉双重检查数据集上的广泛实验结果表明,与现有的 TNN-CCCA 方法相比,平均 MAP 提高了约 2.1%,验证了我们提出的模型的有效性。
Nov, 2022
本文提出了 CDMLMR 方法,该方法以多任务正则化的方式融合四元组排名损失和半监督对比损失,用于建模跨模态语义相似性;与现有方法相比,该方法不仅利用了相似性排名信息,还利用了未标记的跨模态数据,从而提高了跨模态检索准确性。
Mar, 2017