Feb, 2024

视觉 - 语言变换模型的零射击和系统评估之间的有趣差异

TL;DR基于一种新的梯度下降优化方法,本文探索了一个常用的视觉 - 语言模型的嵌入空间,通过 Imagenette 数据集的实验结果表明,尽管该模型达到了超过 99% 的零样本分类性能,但在系统性评估中却完全失败,使用线性近似说明了这些显著差异,并提出了一种可检测修改图像的强大方法。