TagAlign: 多标签分类改进视觉和语言对齐

Dec, 2023

TagAlign: 多标签分类改进视觉和语言对齐

TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification

Qinying Liu, Kecheng Zheng, Wu Wei, Zhan Tong, Yu Liu...

TL;DR通过提取图像和文本特征，我们提出了一种简洁的方法来更好地对齐图像和文本，并通过多标签分类损失补充常用的图像 - 文本对比损失，以提高视觉 - 语言模型的性能。这种方法能够自动解析描述中的对象和属性，并使模型准确定位具有特定属性的对象。

Abstract

The crux of learning vision-language models is to extract semantically aligned information from visual and linguistic data. Existing attempts usually face the problem of coarse alignment, \textit{e.g.}, the visio

learning vision-language models coarse alignment embarrassingly simple approach image-text pairs attribute supervision

发现论文，激发创造

标签对齐前的多模式标签集成视频文本检索

本文提出了一种用于视频 - 文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。

Jan, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022

面向多模态视觉语言模型生成非通用文本

本文主要介绍了一种将人名加入生成文本的新方法，通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型，我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的，我们修改了之前的多模态框架，接受来自任意数量的辅助分类器提供的相关信息。同时，我们创建了一个新的图像 - 标题数据集，名为 PAC，这个数据集包含了一些知名人物的图像和对这些图像的描述，这些描述中包含了人名。

Jul, 2022

视觉语言辅助属性学习

本文提出了一种利用可用的视觉 - 语言知识来改进模型学习的方法，通过一个现成的视觉 - 语言模型辅助，预测每个缺失的属性标签的可能性，在训练中选择忽略那些得分较高的标签，该方法在对新整理的 VAW 数据集上实现了最先进的性能，定性评估证明了该方法在预测更完整属性方面的能力。

Dec, 2023

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出 SemVLP 预训练方法，通过单流预训练和双流预训练相结合，使用共享 Transformer 网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

多模式摘要的段落级视觉 - 语言语义对齐建模

本文提出了 ViL-Sum 来同时建模段落级别的视觉 - 语言语义对齐和多模式摘要，通过使用联合多模式编码器的两个任务，图像重新排列和图像选择，ViL-Sum 可以捕获模态间的相互作用，在最终摘要中选择与段落相关的摘要图像。实验结果表明，我们的方法显著优于当前最先进的方法，并且联合多模式编码器和两个任务可以有效地指导模型学习合理的段落 - 图像和摘要 - 图像关系。

Aug, 2022

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

错配探索：图像 - 文本错位的视觉与文本反馈

本文提出了一种方法，利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释，实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。

Dec, 2023