评估 VLMs 用于基于分数的、多探针注释三维物体

Nov, 2023

评估 VLMs 用于基于分数的、多探针注释三维物体

Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects

Rishabh Kabra, Loic Matthey, Alexander Lerchner, Niloy J. Mitra

TL;DR我们提出了一种方法来边际化通过 VLM 查询变化的任何因素，利用采样响应的 VLM 分数。我们展示了这种概率整合可以在摘要中胜过语言模型（如 GPT4），避免了在响应之间存在对比细节时的幻觉。此外，我们展示了聚合注释对于 Prompt-Chaining 是有用的；它们有助于改进下游 VLM 的预测，例如当在提示中将对象类型指定为辅助输入时，提高了对物体材料的预测质量。利用这些评估，我们展示了 VLM 可以在大规模 Objaverse 数据集上接近人工验证的类型和材料注释的质量，而无需额外的训练或上下文学习。

Abstract

Unlabeled 3d objects present an opportunity to leverage pretrained vision language models (VLMs) on a range of annotation tasks -- from describing object semantics to physical properties. An accurate response mus

3d objects vision language models annotation tasks marginalization prompt-chaining

发现论文，激发创造

分析基于视觉条件的语言模型的设计空间：棱镜式 VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

LOVM: 语言优先视觉模型选择

本研究提出了一种热门研究课题，即如何对多模态视觉 - 语言模型进行选择和预测，并利用新的基准测试 LOVM 来进行考核评估。

Jun, 2023

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的 3D-LLMs，将 3D 世界引入大型语言模型，并利用 3D point clouds 进行各种 3D 相关任务，通过我们设计的提示机制收集了超过 300k 的 3D 语言数据，实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法，并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。

Jul, 2023

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Mar, 2024

ProbVLM：基于概率的适配器用于冻结的视觉语言模型

该研究提出了 ProbVLM，一种新的方法来评估大规模视觉语言模型的多模态嵌入不确定性，以及如何利用该不确定性来提高主动学习和模型选择的效果。

Jul, 2023

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

MyVLM: 为用户特定查询个性化 VLM

对于个性化视觉 - 语言模型，我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合，并将其应用于个性化图像字幕生成和个性化视觉问答，结果表明模型可以推广到学习概念的未见图像，并保持在无关输入上的模型行为。

Mar, 2024