人类和 LLMs 中的视觉对象命名、描述和量化

Mar, 2024

人类和 LLMs 中的视觉对象命名、描述和量化

Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

Alberto Testoni, Juell Sprott, Sandro Pezzelle

TL;DR当前的视觉与语言大型语言模型（VLLMs）在捕捉人类命名偏好方面的能力存在问题，尤其在需要高级推理能力的任务中，例如指定量词。

Abstract

While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints, the extent to which current Vision \& Language Large Language Models (VLLMs) can mimic this crucia

vision & language large language models plausible labels human naming preferences quantifiers high-level reasoning

发现论文，激发创造

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

分析基于视觉条件的语言模型的设计空间：棱镜式 VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

评估 VLMs 用于基于分数的、多探针注释三维物体

我们提出了一种方法来边际化通过 VLM 查询变化的任何因素，利用采样响应的 VLM 分数。我们展示了这种概率整合可以在摘要中胜过语言模型（如 GPT4），避免了在响应之间存在对比细节时的幻觉。此外，我们展示了聚合注释对于 Prompt-Chaining 是有用的；它们有助于改进下游 VLM 的预测，例如当在提示中将对象类型指定为辅助输入时，提高了对物体材料的预测质量。利用这些评估，我们展示了 VLM 可以在大规模 Objaverse 数据集上接近人工验证的类型和材料注释的质量，而无需额外的训练或上下文学习。

Nov, 2023

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

多模态大语言模型自然形成类人对象概念表示

通过分析行为和神经成像数据，本研究揭示了大型语言模型（LLMs）中的对象概念表示与人类的相关性，证明了 LLMs 和多模式 LLMs 已经发展出类似于人类的概念性对象表示，该研究推动了对机器智能的理解并为开发更类似人类的人工认知系统提供了参考。

Jul, 2024

探索多模态大型语言模型的感知限制

在多模态大型语言模型中，研究了其对小型视觉对象的感知限制，发现对象质量、大小、干扰物的位置等因素都会显著降低模型对视觉问题的回答准确性。该研究对多模态大型语言模型的感知限制进行了探索，为未来模型的感知分析提供了新的评价协议。

Feb, 2024

从视觉中学习基数和量词的含义：精确或模糊

本研究通过模型的方式研究了视觉场景中的精确基数和自然语言量词的学习及认知机制。结果表明，使用模糊测度的模型在学习量词方面较为有效，而提供了数字信息则更有助于准确基数的学习。

Feb, 2017

LLMs 作为视觉解释器：通过演变的视觉描述推进图像分类

将视觉语言模型（VLMs）与大型语言模型（LLMs）相结合的迭代优化与视觉反馈方法，显著提高了图像分类性能，并产生了可解释和稳健的特征描述符。

Nov, 2023