自我增强在基础视觉语言模型的文本图像检索中的应用改进

CVPRJun, 2023

自我增强在基础视觉语言模型的文本图像检索中的应用改进

Self-Enhancement Improves Text-Image Retrieval in Foundation Visual-Language Models

Yuguang Yang, Yiming Wang, Shupeng Geng, Runqi Wang, Yimi Wang...

TL;DR本篇研究提出了一个基于自我增强框架 (A^{3} R) 的跨模态图像检索方法，在领域特定任务中较传统方法表现更好，这个方法采用属性增强的策略来丰富文本描述，并且提出了一种调整重排的方法来寻找文本检索查询和候选图像的表征空间，因此实现了对基线和其他团队解决方案在不引入任何额外样本的情况下实现显著改进。

Abstract

The emergence of cross-modal foundation models has introduced numerous approaches grounded in text-image retrieval. However, on some domain-specific retrieval tasks, these models fail to focus on the key attribut

cross-modal foundation models text-image retrieval self-enhancement framework attribute augmentation strategy adaption re-ranking method

发现论文，激发创造

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022

使用检索增强的知识，学习定制的视觉模型

提出一种名为 REACT 的框架用于获取相关网络知识以构建目标领域的定制视觉模型。该框架通过检索与预训练数据集最相关的图像 - 文本对作为外部知识源，并仅训练新的模块化块，冻结所有原始权重，证明了其在零、少、全样本设置下显著提高了分类、检索、检测和分割任务的成功率。

Jan, 2023

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

面向快速准确的图像文本检索与自监督细粒度对齐

在这项工作中，我们在独立嵌入框架之上提出了一个图像 - 文本对齐模块 SelfAlign，通过自监督对比学习在概念级和语境级强制进行图像 - 文本对齐，提高了检索准确性同时保持了检索效率。

Aug, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

RAR: 检索与排序增强型 MLLM 用于视觉识别

CLIP 和 Multimodal Large Language Models（MLLMs）在识别广泛的候选人方面具有优势，RAR 结合了两种方法的优点，并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力，该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。

Mar, 2024

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

HaVTR：利用大型基础模型改进视频 - 文本检索的方法

HaVTR 提出了一种新颖的视频 - 文本学习范式，通过数据增强和引入生成模型生成更加丰富的数据，提高视频 - 文本检索模型的表示学习能力，在多个检索基准测试中展现了优越性。

Apr, 2024

快速检索、智能重新排名：协作和联合方法改进跨模态检索

本文提出了一种基于 fine-tuning 的框架，将任何预先训练的文本 - 图像多模态模型转换为高效的检索模型，并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器，实现更准确、更高效的跨模态检索。

Mar, 2021