图像检索中基于回归缓解兼容训练的热刷新模型升级
本文提出了一种高并行性图神经网络的再排序方法,将传统的再排序过程分为检索高质量图库样本和更新特征两个阶段,并在实验中验证了该方法的实时处理能力和检索效果。
Dec, 2020
本文研究信息检索领域的图像-文本检索模型的可重复性问题,通过预训练和非预训练模型的消融实验证明了先前一些技术提高了检索效果,但仍需要关注影响检索召回率的因素。
Mar, 2022
Train/Test-Time Adaptation with Retrieval is a method that improves model adaptation both during training and testing phases by using a retrieval module and a pool of external samples, which can be used to compensate for the lack of adaptation data, and achieve better downstream classification performance.
Mar, 2023
介绍了在视觉检索系统中,从传统模型更新到新模型需要重新计算所有图片嵌入,所以引入兼容性训练(BCT)的方法,并提出了Adversarial Backward-Compatible Training(AdvBCT)方法进行对比实验,表明其在兼容性和辨别性方面均优于其他BCT方法。
May, 2023
通过引入Multiway-Adapter框架和'Alignment Enhancer'来深化多模态对齐,我们提出了一种高效的适应路径,使得大型多模态模型具备高度的可迁移性,同时实现了57%的微调时间缩减,并在零样本图像-文本检索任务中表现出优异的性能。
Sep, 2023
我们提出了一种名为M2-RAAP的多模态配方,用于推进基于适应性预训练的零-shot视频文本检索,具有有效和高效的特点。通过对视频文本预训练中的四个关键步骤进行全面研究,我们总结了这项实证研究成果,其中我们的技术贡献包括数据过滤和文本重写流水线、将视频输入改为关键帧以加速预训练、以及辅助字幕引导策略来增强视频特征。通过在两种不同语言的优化视频文本数据集上将三种图像-文本基础模型进行适配,进行了大量实验验证了M2-RAAP在基于适应性预训练方面的鲁棒性和可重现性。结果表明,M2-RAAP在显著减少数据量(-90%)和时间消耗(-95%)的同时,取得了优越的性能,为四个英文和两个中文零-shot检索数据集建立了新的SOTA。我们正在准备我们的优化双语数据注释和代码库,将在该URL上提供。
Jan, 2024
学习兼容表示使得语义特征可以随着时间的推移而交替使用,本文通过展示$d$-Simplex固定分类器学习的平稳表示在其形式定义的两个不等式约束下最优近似兼容表示,不仅为未来的研究奠定了坚实基础,同时也提供了可以在实际学习情景中应用的启示。
May, 2024
本研究解决了视觉检索系统在模型更新时由于表示不对齐所带来的挑战。提出的正交兼容对齐(OCA)方法通过扩展表示空间,学习正交变换来兼容旧模型,同时融合新信息,有效避免了重新索引的需求,并在CIFAR-100和ImageNet-1k上的实验结果显示出更高的准确度。
Aug, 2024
本文解决了 CLIP 模型在处理图像相似性搜索时,面对视觉上不同但文本描述相似的图像时表现不佳的问题。我们提出并评估了两种新方法来优化图像检索能力,同时保持文本和图像嵌入的对齐。实验证明这些方法在多个基准测试中提升了 CLIP 的性能,尤其在图像检索和零-shot 分类方面表现突出。
Sep, 2024