重新思考大型视觉语言模型中长期推理的视觉依赖性

Oct, 2024

重新思考大型视觉语言模型中长期推理的视觉依赖性

Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models

Yucheng Zhou, Zhi Rao, Jun Wan, Jianbing Shen

TL;DR本研究探讨大型视觉语言模型（LVLMs）在长期推理中的表现问题，发现其过于依赖文本信息而导致视觉依赖性降低。我们提出了一种新的无训练上下文修剪方法，旨在选择性去除不重要的文本信息，从而增强视觉依赖性并提高LVLM的长期推理性能。实验证明，该方法有效改善了各类LVLM在长期上下文中的表现。

Abstract

Large Vision-Language Models (LVLMs) excel in cross-model tasks but experience performance declines in Long-context Reasoning due to overreliance on textual information and reduced →

发现论文，激发创造

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉-语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的EfficientVLM模型仅含有9300万个参数，具有98.4％的性能表现，并在各种视觉-语言任务中取得了令人瞩目的结果。

Oct, 2022

ReForm-Eval: 通过任务导向基准的统一重新制定评估大型视觉语言模型

通过ReForm-Eval基准测试，我们对LVLM的各种能力进行了全面的定量评估，发现并分析了现有LVLM的优点和缺点，并确定了潜在的影响因素。

Oct, 2023

揭开大型视觉语言模型的一致性之纱

通过多模态基准测试工具ConBench，本研究首次揭示了大型视觉和语言模型在解决方案空间不同的提示下的答案一致性问题，并通过基于触发器的诊断优化方法，间接提高了模型的性能，以增强其描述能力。

May, 2024

从冗余到相关性：增强多模态大型语言模型的可解释性

通过分析信息流的动态流动，我们发现信息流似乎在浅层中汇聚，进一步的研究揭示了浅层中图像令牌的冗余，因此引入了一个截断策略来聚合这些浅层内的图像令牌，该方法通过多个模型上的实验证实，并获得了一致的改进。

Jun, 2024

图像中的视觉针在感知和描述的背景中很容易迷失

LoCoVQA是一个用于评估视觉语言模型（VLM）中的长篇上下文抽取推理的动态基准生成器。该测试评估了VLM在回答问题时如何忽略无关信息的能力，表明目前的最先进VLM在许多长篇上下文应用中缺乏这种关键能力。

Jun, 2024

提高大型语言模型的高级视觉推理能力

本研究解决了传统视觉语言模型在复杂视觉推理场景中的表现不足的问题。我们提出了复杂视觉推理大型语言模型（CVR-LLM），通过迭代自我精炼循环生成详细的上下文感知描述，并利用大型语言模型的文本知识进行准确预测，显著提升了推理能力。研究结果表明，CVR-LLM在多项复杂视觉推理任务上达到目前的最佳性能，具有重要的应用潜力。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了长视频理解中大多模态模型（LMMs）面临的性能挑战，特别是视觉和语言模态之间的上下文窗口差异。通过扩展视觉上下文窗口，研究提供了一种新的方法，可以在不重新训练长视频数据集的情况下适应长视频任务。此外，引入的渐进池化推理策略有效降低了内存消耗，同时保持了重要的空间信息，显著提高了长视频理解的性能。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了现有大型多模态模型在长视频理解中的不足，提出了一种通过扩展视觉上下文窗口的方法，以便在无需重新训练长视频数据集的情况下应用LMMs。研究结果表明，该方法在多个长视频理解基准上均显著提升了性能，尤其是在内存使用方面的改进减少约45%的记忆消耗，且不影响性能表现。

Sep, 2024

稀疏视觉语言模型：视觉标记稀疏化以提高视觉语言模型推理效率

本研究针对现有视觉语言模型中视觉标记消耗大量计算资源的问题，提出了一种不需要额外训练的数据的有效标记优化机制SparseVLM。实验结果表明，该方法在多种图像和视频理解任务中显著提升了效率，尤其是LLaVA模型在保持较高准确率的同时，FLOPs减少了61%至67%，压缩率达到78%。

Oct, 2024

SparseVLM：用于高效视觉-语言模型推理的视觉令牌稀疏化

本研究针对视觉-语言模型中视觉令牌占用大量计算资源的问题，提出了一种无额外训练的数据的高效令牌优化机制SparseVLM。该方法通过自注意力矩阵中的相关文本令牌选择视觉令牌的显著性，逐步修剪无关令牌，显著提高了多个视觉-语言模型在图像和视频理解任务中的效率，同时保持了高准确率。

Oct, 2024