FullAnno：增强多模态大语言模型图像理解的数据引擎

Sep, 2024

FullAnno：增强多模态大语言模型图像理解的数据引擎

FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen...

TL;DR本研究解决了多模态大语言模型（MLLMs）在监督微调阶段对高质量数据的依赖问题。提出的FullAnno系统是一种数据引擎，能够生成大规模、高质量的图像注释，显著提高了数据的精细度与丰富性，实验表明其生成的注释能显著提升LLaVA-v1.5的性能。

Abstract

Multimodal Large Language Models (MLLMs) have shown promise in a broad range of vision-language tasks with their strong reasoning and generalization capabilities. However, they heavily depend on high-quality data in the

发现论文，激发创造

揭示参照理解对多模态语言模型的力量

该论文提出了一种新的方法来增强多模态大语言模型的指称理解能力，通过使用边界框的坐标表示图像中的指称对象，并将其转化为特定格式的文本，使模型能够以自然语言处理坐标，同时通过自洽引导方法和参数高效的调整框架进一步提升指称理解能力。实验结果表明，该方法在传统的视觉语言和指称理解任务中的性能优于其他方法。

Oct, 2023

综合、诊断和优化：朝着细粒度的视觉-语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试SPEC。令人惊讶的是，四个领先的VLM在SPEC上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化VLM在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了SPEC的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

DeepSeek-VL: 实现真实世界的视觉-语言理解

DeepSeek-VL是一个开源的视觉-语言模型，设计用于实际的视觉和语言理解应用，通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。

Mar, 2024

SC-Tune：解锁大型视觉语言模型中的自洽参考理解

我们介绍了LVLM的自一致能力和新颖的自一致调整范式(SC-Tune)，证明了SC-Tune显著提升了目标级别视觉语言基准的性能，并在图像级视觉语言基准上保持了竞争力或改进的性能。

Mar, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

SEED-Bench-2-Plus：基于多模态大型语言模型的文本丰富视觉理解基准测试

我们介绍了SEED-Bench-2-Plus，这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准，通过涵盖现实世界中的三个广泛类别（图表、地图和网络），它们有效地模拟了复杂多样的文本丰富环境，并强调了当前MLLMs在文本丰富视觉理解方面的限制。

Apr, 2024

图像智能描述技术研究与应用

通过精细图像描述训练视觉语言模型的框架和数据集的介绍，验证了其在数据质量和与先前工作的比较中的优势，并展示了模型在生成最接近原始图像的描述以及在多个数据集上的表现优势。

May, 2024

划分、征服与结合：一种无需训练的高分辨率图像感知框架用于多模态大语言模型

本研究解决了多模态大语言模型在高分辨率图像理解中的不足，尤其是现有基准仅支持2K图像的问题。我们提出了DC$^2$框架，通过分割、生成文本描述及结合信息，显著提升模型在4K和8K图像上的感知能力。实验结果表明，该框架在多模态基准测试中相较于现有模型可实现6%-8%的准确率提升。

Aug, 2024

AdaptVision：多模态大语言模型中动态输入缩放的场景理解

本研究针对多模态大语言模型在处理不同分辨率图像时面临的挑战，提出了AdaptVision模型。该模型通过动态调整视觉标记的数量来优化输入数据，从而提高对自然图像和文本图像的理解能力，显著提升了在视觉语言任务中的表现。

Aug, 2024