蒸馏技术提高低质量查询的视觉位置识别
使用多模态传感器数据在视觉地点识别(VPR)中的应用已经展现出与单模态对应物相比有着更强的性能表现。然而,集成额外的传感器会增加成本,并且对于需要轻量级操作的系统可能不可行,从而影响了 VPR 的实际部署。为了解决这个问题,我们采用了知识蒸馏的方法,在推断过程中使单模态学生能够从跨模态的教师网络中学习而无需引入额外的传感器。尽管当前的蒸馏方法已经取得了显著的进展,但特征关系的探索仍然是一个未被充分研究的领域。为了解决 VPR 中跨模态蒸馏的挑战,我们提出了 DistilVPR,这是一个新颖的用于 VPR 的蒸馏流程。我们提出了利用来自多个代理的特征关系,包括教师和学生神经网络的自身代理和跨代理。此外,我们整合了不同空间曲率的各种流形,用于探索特征关系。这种方法增强了特征关系的多样性,包括欧氏、球面和双曲关系模块,从而提高了整体表征能力。实验证明,我们提出的流程相较于其他蒸馏基线取得了最先进的性能。我们还进行了必要的剥离研究来展示设计的有效性。代码已在该链接中发布。
Dec, 2023
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
本文提出了 StructVPR,一种新的训练体系结构,以增强 RGB 全局特征中的结构知识,因此提高在不断变化的环境下的特征稳定性。 StructVPR 使用分割图像作为 CNN 网络中结构知识输入的更明确的源,并应用知识蒸馏来避免在线分割和测试中的 Seg-branch 推理。最终,StructVPR 使用全局检索仅在几项基准测试中取得了令人印象深刻的表现,并且即使在附加重新排名的情况下,仍然保持低的计算成本。
Dec, 2022
该论文提出了一种基于知识蒸馏框架的 Distill-VQ 算法,通过将密集的嵌入作为 “教师” 来预测查询与样本文档的相关性,并将 VQ 模块作为 “学生” 学习以复现预测的相关性,得出的检索结果可以完全保留密集嵌入的检索结果,从而使未标记的数据可以给出丰富的训练信号,无需标记数据的高质量向量量化,该算法在实践中具有很强的适用性。
Apr, 2022
通过 SALAD 方法,利用 DINOv2 作为 backbone,优化了视觉地点识别任务,提高了描述符的质量,并在公共 VPR 数据集中超越了单阶段和双阶段方法。
Nov, 2023
该研究旨在构建一种基于视角知识蒸馏(VKD)的模型,通过在 teacher-student 框架下将多种视角信息作为监督信号进行主动学习,从 Video-To-Video 到 Image-To-Video,显著提高了人、动物、车辆重识别的性能。
Jul, 2020
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三个数据集和两种学生模型的坚实基线,并提供了大量有关超参数调整的信息。在 ADE20K 数据集上,发现只有两种技术能与我们简单的基线相竞争。
Sep, 2023
通过特征蒸馏方法,我们的研究提出了一种新的约束特征蒸馏方法,该方法可以应用于训练小型高效的深度学习模型,并在 ImageNet 数据集上获得了显著的性能提升。
Mar, 2024
本文提出了一种多分辨率特征金字塔编码视觉识别方法,称为 MultiRes-NetVLAD,可以更准确地匹配全球地点描述符,从而使 global descriptor based retrieval 能够达到最先进的召回率水平。
Feb, 2022
通过研究紧凑卷积网络架构和后训练量化对视觉地点识别(VPR)性能的影响,我们不仅通过 recall@1 分数测量性能,还测量内存消耗和延迟,为受资源限制的 VPR 系统提供了设计建议。
Dec, 2023