冻结大型语言模型在视觉信号理解中的应用

Mar, 2024

冻结大型语言模型在视觉信号理解中的应用

Beyond Text: Frozen Large Language Models in Visual Signal Comprehension

Lei Zhu, Fangyun Wei, Yanye Lu

TL;DR我们研究了大型语言模型（LLM）在没有对多模态数据集进行微调的情况下，直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器（V2T Tokenizer），通过编码器-解码器、LLM词汇表和CLIP模型将图像转换成“外语”。通过这种创新的图像编码方式，LLM不仅具备了视觉理解能力，还能以自回归方式进行图像去噪和恢复，关键是不需要任何微调。我们进行了严格的实验证实了我们的方法，包括图像识别、图像字幕、视觉问题回答等理解任务，以及修复任务，如修复、扩展、去模糊和位移复原。

Abstract

In this work, we investigate the potential of a large language model (LLM) to directly comprehend visual signals without the necessity of fine-tuning on multi-modal datasets. The foundational concept of our metho

发现论文，激发创造

大型语言模型的良好视觉分词器的特点是什么？

通过实证研究，我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器，以使大型语言模型（LLM）成为强大的多模态大语言模型（MLLM）。我们发现，GVT在不引入额外的参数和任务特定的微调的情况下，展现出了在多个尺度上的强大视觉理解能力，特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。

May, 2023

在大型语言模型中种下一个愿景的种子

本文介绍了SEED，一种复杂的图像分词器，可使大型语言模型同时有看和画的能力，并提出了两个重要的原则，以有效地便于将SEED与LLMs对齐。

Jul, 2023

动态离散视觉标记的统一语言-视觉预训练

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为LLM可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像-文本语料库上预训练的LaVIT具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此https URL上提供。

Sep, 2023

语言模型领先于扩散 - 分词器是视觉生成的关键

通过引入MAGVIT-v2作为视觉分词器，本文展示了大型语言模型（LLMs）在图像和视频生成上优于扩散模型，并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。

Oct, 2023

语言模型中的冰冻Transformer是有效的视觉编码层

利用大型语言模型进行视觉任务，通过冻结预训练的语言模型的转换器块作为视觉令牌的编码器层，能够显著改善计算机视觉任务的性能，并提出信息过滤假设来解释预训练语言模型在视觉编码中的有效性。

Oct, 2023

大型语言模型为文本丰富的VQA带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于LLM方法在解决此问题时的优势和瓶颈，并通过整合OCR模块和MLLM发现多数MLLM可以理解OCR信息，为训练保留LLM能力提供了启示。

Nov, 2023

消除大型视觉语言模型中的偏见

在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉-语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个“校准”步骤来调整输出分布。这种“事后去偏”的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻LLM先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为“去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了LVLMs在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Mar, 2024

语言模型对生物医学成像任务的免费助推器

该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性，这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层，该方法与现有方法学不同，可以直接处理视觉标记。该研究发现，这些大型语言模型能够提升生物医学图像应用的性能，包括2D和3D的视觉分类任务，作为即插即用的增强器。更有趣的是，该提出的框架在MedMNIST-2D和3D的大规模标准数据集上取得了卓越的性能，刷新了最新的技术结果。通过这项工作，我们的目标是在生物医学图像领域开拓大型语言模型的应用新途径，并丰富对其在这一专业领域的潜力的认识。

Mar, 2024

可恢复压缩：一种基于文本信息的多模态视觉令牌恢复机制

本研究针对大规模多模态模型在视觉令牌压缩中的不足，提出了一种基于文本信息的动态视觉令牌恢复机制，此机制可以有效避免重要信息的损失。实验结果显示，该方法在压缩视觉令牌至原始数量的10%时，表现与原始方法相当，提升了模型的训练与推理效率。

Sep, 2024

TS-LLaVA：通过缩略图和采样构建视觉标记以实现无训练视频大型语言模型

本研究针对现有视频大型语言模型数据稀缺的问题，提出了一种无训练的视频理解方法TS-LLaVA，通过缩略图和采样策略构建视觉标记。研究表明，该方法在多个基准测试中实现了最新的状态，并在MVBench基准测试中优于GPT-4V，且在MLVU基准测试中与72B的训练型视频语言模型Video-LLaMA2表现相当。

Nov, 2024