冻结大型语言模型在视觉信号理解中的应用
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉理解能力,特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。
May, 2023
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为LLM可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像-文本语料库上预训练的LaVIT具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此https URL上提供。
Sep, 2023
通过引入MAGVIT-v2作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。
Oct, 2023
利用大型语言模型进行视觉任务,通过冻结预训练的语言模型的转换器块作为视觉令牌的编码器层,能够显著改善计算机视觉任务的性能,并提出信息过滤假设来解释预训练语言模型在视觉编码中的有效性。
Oct, 2023
基于文本识别的图像视觉问答是一个跨模态任务,需要图像理解和文本识别。本文研究了基于LLM方法在解决此问题时的优势和瓶颈,并通过整合OCR模块和MLLM发现多数MLLM可以理解OCR信息,为训练保留LLM能力提供了启示。
Nov, 2023
在计算机视觉和自然语言处理领域,本研究重要不可或缺的工具是大型视觉-语言模型(LVLMs),它们能够根据视觉输入生成文本描述。然而,我们的调查发现生成的内容存在显著的偏见,主要受到底层大型语言模型(LLMs)的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息,我们提出了两种简单且无需训练的策略。首先,对于分类或多项选择问题回答(QA)等任务,我们通过仿射变换提出了一个“校准”步骤来调整输出分布。这种“事后去偏”的方法确保了当图像不存在时每个答案都具有均匀的分数,作为一种有效的正则化技术以减轻LLM先验的影响。对于更复杂的开放式生成任务,我们将这种方法扩展为“去偏抽样”,借鉴了对比解码方法的灵感。此外,我们的研究还揭示了LVLMs在不同解码配置下的不稳定性,通过对不同设置的系统性探索,我们显著提高了性能,超过了现有评估结果,并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象,还有助于生成更有用和准确的插图。
Mar, 2024
该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性,这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层,该方法与现有方法学不同,可以直接处理视觉标记。该研究发现,这些大型语言模型能够提升生物医学图像应用的性能,包括2D和3D的视觉分类任务,作为即插即用的增强器。更有趣的是,该提出的框架在MedMNIST-2D和3D的大规模标准数据集上取得了卓越的性能,刷新了最新的技术结果。通过这项工作,我们的目标是在生物医学图像领域开拓大型语言模型的应用新途径,并丰富对其在这一专业领域的潜力的认识。
Mar, 2024
本研究针对大规模多模态模型在视觉令牌压缩中的不足,提出了一种基于文本信息的动态视觉令牌恢复机制,此机制可以有效避免重要信息的损失。实验结果显示,该方法在压缩视觉令牌至原始数量的10%时,表现与原始方法相当,提升了模型的训练与推理效率。
Sep, 2024
本研究针对现有视频大型语言模型数据稀缺的问题,提出了一种无训练的视频理解方法TS-LLaVA,通过缩略图和采样策略构建视觉标记。研究表明,该方法在多个基准测试中实现了最新的状态,并在MVBench基准测试中优于GPT-4V,且在MLVU基准测试中与72B的训练型视频语言模型Video-LLaMA2表现相当。
Nov, 2024