视觉数据类型理解不会由于扩展视觉 - 语言模型而出现
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
基于本文的研究发现,将分类聚焦的数据集整合到可视语言模型的训练中可以提高其分类性能,并将性能提升转移到其一般能力上,对于新收集的 ImageWikiQA 数据集,准确率提高了 11.8%。
May, 2024
本文介绍了一种新的框架,用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型,并发现它们大多数难以展示出概念理解。然而,我们发现交叉注意力可以帮助学习概念理解,并提出了一种新的微调技术,以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。
Apr, 2023
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
Mar, 2024
视觉语言模型能够预测图像中的视觉概念,例如 'brown'(颜色)和'spiky'(纹理),这种免费学习的能力可以广泛应用于神经符号推理或人可解释的对象分类。通过定义和评估视觉概念的新策略,我们证实预训练的视觉语言模型通过文字提示可以提取出准确全面的视觉概念,这一概念发现与学习框架能够为多样化的视觉识别数据集提供准确的描述。
Apr, 2024
视觉语言模型(VLM)在各种下游任务中展现出了卓越的性能,但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像,并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是,四个领先的 VLM 在 SPEC 上的表现接近随机猜测,揭示了重大局限性。鉴于此,我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能,在不影响零样本性能的情况下,显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性,并进一步验证了我们的方法。
Nov, 2023
通过构建包含五种视觉错觉的数据集并制定四项任务,研究发现,虽然整体对齐性较低,但更大的模型更接近人类感知且更容易受到视觉错觉的影响,这将促进对人类和机器中的视觉错觉有更深入的理解,并为未来能够更好地使人类和机器在感知和交流共享的视觉世界方面达到一致的计算模型提供基础。
Oct, 2023
本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力,并发现这些模型在物体颜色,大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。
Sep, 2022
通过一系列标准化评估和深入研究,提供了视觉相关语言模型 (VLMs) 的能力和设计决策,包括图像预处理、架构和优化等方面的细致洞察。
Feb, 2024