视觉 - 语言变换模型的零射击和系统评估之间的有趣差异

Feb, 2024

视觉 - 语言变换模型的零射击和系统评估之间的有趣差异

Intriguing Differences Between Zero-Shot and Systematic Evaluations of Vision-Language Transformer Models

Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu, Lingjiong Zhu

TL;DR基于一种新的梯度下降优化方法，本文探索了一个常用的视觉 - 语言模型的嵌入空间，通过 Imagenette 数据集的实验结果表明，尽管该模型达到了超过 99% 的零样本分类性能，但在系统性评估中却完全失败，使用线性近似说明了这些显著差异，并提出了一种可检测修改图像的强大方法。

Abstract

transformer-based models have dominated natural language processing and other areas in the last few years due to their superior (zero-shot) performance on benchmark datasets. However, these models are poorly understood due to their complexity and size. While probing-based methods are w

transformer-based models zero-shot performance representation space embedding space systematic evaluations

发现论文，激发创造

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

视觉转换器嵌入空间的引人注目的等效结构

基于视觉转换器作为例子，通过分析和系统实验，我们展示了表示空间由大型分段线性子空间和局部正常空间组成，存在着不同输入具有相同表示和在视觉上难以区分的不同表示的输入。这些经验结果进一步通过基础模型的局部方向估计来验证。因此，得到的表示会改变下游模型的结果，并且这样的模型容易过度泛化且具有有限的迁移能力。

Jan, 2024

VL-Taboo：面向属性的零样本视觉 - 语言模型能力分析

本研究分析了基于大规模数据的视觉 - 语言模型的真正零样本能力及其属性基零样本学习能力，评估了现有模型对不同基准测试的性能表现及影响因素。结果表明该模型主要通过识别语言中的类标签实现零样本学习，属性数的变化会显著影响其表现。

Sep, 2022

零样本文本到图像生成

本文介绍了一种基于 transformer 的 autoregressive 的文本 - 图像生成方法，其与以往的一些领域特定模型相比，具有更好的尺度和零样本表现。

Feb, 2021

神经网络少样本文本分类的现实检验

本文介绍了在 NLP 领域中使用头部计算机视觉模型的性能以及使用 transformers 后的表现，探讨了这些模型在意图识别任务中的应用情况，发现造成性能差异的因素为任务的类别数量，提出了一个简单的基线模型，所有实现的模型都会被公开。

Jan, 2021

多语言多模态预训练用于零样本跨语言视觉语言模型迁移

本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索，并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下，我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题，我们引入了多语言多模态预训练策略，并收集了一个新的多语言教学视频数据集（MultiHowTo100M）进行预训练。在 VTT 上的实验表明，我们的方法显著提高了非英语语言的视频搜索效果，而无需额外的注释。此外，当有多语言注释时，我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。

Mar, 2021

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

对比视觉语言模型中的感知分组

本篇论文研究视觉 - 语言模型在理解图像中物体所在区域和组合视觉相关部分方面的表现，提出一种最小的修改方案，获得了先进的无监督分割结果和对冗余相关性的鲁棒性。

Oct, 2022

关于视觉 Transformer 在零样本人脸反欺诈方面的有效性研究

本文提出了一种基于视觉 Transformer 模型的零样本反欺诈方法，通过在公共数据集上的实验，证明了该方法在 HQ-WMCA 和 SiW-M 数据集中零样本协议方面优于现有技术，并在跨数据库性能方面取得了显著提升。

Nov, 2020

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉 - 语言任务的问题，使输出更易于解释。

May, 2023