通过有效的跨模态蒸馏弥合视觉定位的模态差距

Dec, 2023

通过有效的跨模态蒸馏弥合视觉定位的模态差距

Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation

Jiaxi Wang, Wenhui Hu, Xueyang Liu, Beihu Wu, Yuting Qiu...

TL;DR我们提出了一种名为 EpmVG 的多模态可视化定位的强化预训练模型框架，通过一种跨模态蒸馏机制，它能有效引入预训练模型中图像和文本的一致性信息，减少主干网络中存在的域差，从而提高了模型在可视化定位任务中的性能，实验证明我们的方法优于现有的最先进方法。

Abstract

visual grounding aims to align visual information of specific regions of images with corresponding natural language expressions. Current visual grounding methods leverage pre-trained visual and language backbones separately to obtain visual features and linguistic features. Although th

visual grounding pre-trained model multi-modal reasoning cross-modal distillation mechanism performance improvement

发现论文，激发创造

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

HiVG: 视觉引导的分层多模态细粒度调控

通过多模态预训练的方法，我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG，用于解决通过自然语言对视觉区域进行视觉定位的任务，并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。

Apr, 2024

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于 transformer 的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

TransVG：基于 Transformer 的端到端视觉定位

本文提出了一种基于 Transformer 的视觉定位框架 TransVG，通过建立多模态对应关系，实现使用简单 Transformer 编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。

Apr, 2021

将更多注意力转移至视觉主干：用于端到端视觉定位的查询调制细化网络

本文提出了一种 Query-modulated Refinement Network（QRNet）来处理视觉特征与多模态推理中所需特征的不一致性，包括 Query-aware Dynamic Attention（QD-ATT）机制和多尺度融合。实验表明，该方法在五个广泛使用的数据集上的表现优于现有的最先进方法。

Mar, 2022

DistilVPR：视觉地点识别的跨模态知识蒸馏

使用多模态传感器数据在视觉地点识别（VPR）中的应用已经展现出与单模态对应物相比有着更强的性能表现。然而，集成额外的传感器会增加成本，并且对于需要轻量级操作的系统可能不可行，从而影响了 VPR 的实际部署。为了解决这个问题，我们采用了知识蒸馏的方法，在推断过程中使单模态学生能够从跨模态的教师网络中学习而无需引入额外的传感器。尽管当前的蒸馏方法已经取得了显著的进展，但特征关系的探索仍然是一个未被充分研究的领域。为了解决 VPR 中跨模态蒸馏的挑战，我们提出了 DistilVPR，这是一个新颖的用于 VPR 的蒸馏流程。我们提出了利用来自多个代理的特征关系，包括教师和学生神经网络的自身代理和跨代理。此外，我们整合了不同空间曲率的各种流形，用于探索特征关系。这种方法增强了特征关系的多样性，包括欧氏、球面和双曲关系模块，从而提高了整体表征能力。实验证明，我们提出的流程相较于其他蒸馏基线取得了最先进的性能。我们还进行了必要的剥离研究来展示设计的有效性。代码已在该链接中发布。

Dec, 2023

视觉分布校准和跨模态分布对齐的小样本学习

使用 Selective Attack 模块和交叉模态分布对齐模块加上样本增强策略来解决 vision-language models 下 few-shot 学习中的关键问题，能够有效地使得视觉和语言特征分布一致，并在 11 个数据集上稳定地优于现有方法。

May, 2023