视觉语言模型能否准确看到图像细节？

Aug, 2024

视觉语言模型能否准确看到图像细节？

How Well Can Vision Language Models See Image Details?

Chenhui Gou, Abdulwahab Felemban, Faizan Farooq Khan, Deyao Zhu, Jianfei Cai...

TL;DR本研究针对现有视觉语言模型（VLMs）在图像细节感知方面的不足，提出了一种新的像素值预测任务（PVP）。通过调整视觉编码器，研究表明在预训练阶段融合像素值预测任务可以显著提升VLMs在图像理解应用中的表现，特别是在图像语义分割和视频游戏决策中的应用效果显著改善。

Abstract

Large Language Model-based Vision-Language Models (LLM-based VLMs) have demonstrated impressive results in various vision-language understanding tasks. However, how well these VLMs can see image detail beyond the semantic level remains unclear. In our study, we introduce a

发现论文，激发创造

VLUE: 一个评估视觉语言模型的多任务基准

本研究介绍了一个名为VLUE的视觉语言理解评估基准，可用于评估VLP模型的泛化能力和效率-性能权衡。该基准显示了所有VLP模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距，并且衡量VLP模型的效率-性能权衡可为设计选择提供有益见解。

May, 2022

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

DeepSeek-VL: 实现真实世界的视觉-语言理解

DeepSeek-VL是一个开源的视觉-语言模型，设计用于实际的视觉和语言理解应用，通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。

Mar, 2024

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于LLM中的世界知识。2）在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题，我们提出了MMStar，这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM，以评估它们的多模态能力，并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源VLMs在单图像任务中接近GPT-4V的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的GPT-4V模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的MIRB可以作为开发下一代多模态模型的测试平台。

Jun, 2024

在视觉大模型中，增大编码器是否总是更好？

本研究针对视觉语言模型（VLM）在扩大规模时的性能表现进行探讨。论文指出，仅仅增大编码器的规模并不一定能提升VLM的性能，同时分析了大型语言模型（LLM）的参数规模和数据质量对预训练结果的影响。这些发现对理解VLMs与LLMs之间的规模法则差异具有重要意义。

Aug, 2024

响应广泛关闭：基本视觉语言模型能力中的惊人观察

本研究旨在揭示当前最先进视觉语言模型（VLMs）在基本视觉任务上的局限性，如物体分类、空间排列理解和物体实例划分。通过构建一系列测试，比较常规性能与特征直接训练的探测器性能，本研究发现了VLMs反应中的新缺陷，提出了改进未来VLM模型的重要见解。

Aug, 2024

提高大型语言模型的高级视觉推理能力

本研究解决了传统视觉语言模型在复杂视觉推理场景中的表现不足的问题。我们提出了复杂视觉推理大型语言模型（CVR-LLM），通过迭代自我精炼循环生成详细的上下文感知描述，并利用大型语言模型的文本知识进行准确预测，显著提升了推理能力。研究结果表明，CVR-LLM在多项复杂视觉推理任务上达到目前的最佳性能，具有重要的应用潜力。

Sep, 2024