- CVLUE:一个新的面向中文视觉语言理解评估的基准数据集
通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集,揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距,并发现在中国文化方面缺乏知识。此外,通过在中 - MM双向一对多嵌入对齐用于基于文本的人物检索
文本人物检索是一项具有挑战性的任务,涉及根据文本描述检索特定个体。为了解决优化问题,我们提出了一种有效的双向一对多嵌入模式,并设计了一个名为 Beat 的模型,该模型在文本人物检索任务上取得了最新的性能。
- 利用多对多关系对抗视觉语言对抗性攻击
通过研究视觉 - 语言模型在图像 - 文本检索中的对抗攻击,本文提出了一种利用 N:N 关系增强对抗鲁棒性的防御策略,并证明了多样化扩增技术和对齐的图像 - 文本对对提高模型的鲁棒性具有重要作用。
- 通过选择困难负面无配对样本进行精细分类图像 - 文本检索的主动学习
我们提出了一种主动学习算法,用于图像 - 文本检索 (ITR),以更具成本效益地收集配对数据。通过引入一种新的评分函数来选择难以配对的图像(或文本)作为负样本,我们验证了该方法在 Flickr30K 和 MS-COCO 数据集上的有效性。
- LuoJiaHOG:一种面向层次化地理感知的遥感图像 - 文本检索数据集
通过介绍一个包含图像标注数据集 LuojiaHOG 和基于 CLIP 的图像语义增强网络 CISEN,本研究致力于促进遥感图像与文本的准确对齐,从而在图像和文本之间实现准确的关键信息检索。
- AAAI图像 - 文本检索的跨模态和单模态软标签对齐
通过引入交叉模态和单模态软标签对齐 (CUSA) 方法,我们解决了图像 - 文本检索中的两个问题:模态间匹配缺失和模态内语义损失。实验证明,我们的方法可以提升图像 - 文本检索以及单模态检索的性能,达到新的最先进水平。
- MLLMs 增强的视觉 - 语言表示学习
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获 - 跨模态突出片段增强对齐网络:图像 - 文本检索
通过降低非重要图片和文本片段的参与度,提高对重要片段的对齐相似性,本文介绍了一种新的跨模态突出片段增强对齐网络 (CPFEAN),该网络通过减少在对齐过程中无关区域的参与度并相对提高对齐的突出词,从而实现改进的检索准确性。与最先进的方法相比 - MCAD: 多教师跨模态对齐蒸馏以实现高效的图像 - 文本检索
使用多教师跨模态对齐蒸馏技术 (MCAD),通过在双流模型中融合单流特征提高学生模型的检索性能,同时实现高效的图像 - 文本检索任务,降低模型大小和终端设备部署的复杂性。
- 面向方向的遥感图像 - 文本检索视觉语义嵌入模型
图像 - 文本检索在近年来取得了快速发展,然而由于视觉 - 语义不平衡在遥感中仍然存在挑战,导致非语义视觉和文本特征的不正确匹配。为了解决这个问题,我们提出了一种新颖的面向方向的视觉 - 语义嵌入模型 (DOVE),用于挖掘视觉与语言之间的 - 不确定性感知的多视角视觉语义嵌入
我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架,通过多种视图 - 文本匹配将整体图像 - 文本匹配分解,引入了一种不确定性感知损失函数(U - MM面向快速准确的图像文本检索与自监督细粒度对齐
在这项工作中,我们在独立嵌入框架之上提出了一个图像 - 文本对齐模块 SelfAlign,通过自监督对比学习在概念级和语境级强制进行图像 - 文本对齐,提高了检索准确性同时保持了检索效率。
- ACL弃用预训练:将视觉 - 语言模型应用于未知语言
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
- 高效的令牌引导下的图像文本检索与一致多模态对比性训练
本文提出了一种基于 Token-Guided Dual Transformer (TGDT) architecture 的图像文本检索框架,将粗粒度和细粒度表示学习结合到一个统一的框架中,并提出了一种名为同步多模态对比损失的新型训练目标,通 - 将利用列表法排序与基于对比法的图像 - 文本检索相融合
本文提出了在传统基于成对注释的图像 - 文本检索(ITR)中,集成列表式排名以提高检索性能和提供更用户友好的检索结果的方法。具体而言,该方法采用 Relevance Score Calculation(RSC)模块计算整个排名列表的相关分数 - 用于基于 Grounding 的多模态预训练的命名实体丰富标题上位词化
本文研究使用上位词法处理命名实体,用于预训练和微调多模态模型,结果表明使用上位词法能够显著提高对象的预训练性能,并且在开放词汇检测上具有潜在的发展前景。
- SIGIR可学习的基于支柱的图像 - 文本重排序
本文提出了一种新的可学习的基于框架的重新排序范式,该范式可以捕捉图片和文本之间的邻居关系,提高单模态检索任务的性能。实验结果表明,该范例具有很好的鲁棒性和推广性能力,并且可以在不同的基础模型上取得很好的效果。
- SIGIR跨模态图像 - 文本检索基准的重新思考
本文针对图文检索中的细粒度语义匹配问题,以 MSCOCO-Test-5K 和 Flickr30K-Test-1K 数据集不足的情况为背景,提出了将其重建为 MSCOCO-FG 和 Flickr30K-FG 等数据集的方法,并通过模型评估和实 - 通过保留视觉主要语义实现图像文本检索
本文提出了一种语义优化方法,称为视觉语义损失(VSL),以辅助模型专注于图像的主要内容,通过对图像的注释文本的利用,减少次要内容的负面影响,通过两个基准数据集(MSCOCO 和 Flickr30K)的大量实验,证明了该方法的卓越性能。
- 基于场景图的图像 - 文本检索融合网络
本研究提出了一种基于场景图融合网络的图像 - 文本检索方法,通过内部和交叉模态融合来增强图像 / 文本特征,并采用层次化的融合注意力来将语义信息嵌入到图像 / 文本特征向量之中,进而进行图像 - 文本的检索任务。实验结果表明,本方法相比其他