GLOV：作为隐式优化器的指导大型语言模型用于视觉语言模型

Oct, 2024

GLOV：作为隐式优化器的指导大型语言模型用于视觉语言模型

GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin...

TL;DR本研究提出了一种新方法GLOV，使大型语言模型(LMs)能够作为视觉-语言模型(VLMs)的隐式优化器，以提升下游视觉任务的性能。通过对下游任务描述进行meta提示，GLOV将合适的VLM提示进行排序，从而优化模型输出，实验证明该方法在多个数据集上可显著提升视觉任务的识别性能，表现出高达57.5%的提升潜力。

Abstract

In this work, we propose a novel method (GLOV) enabling Large Language Models (LLMs) to act as Implicit Optimizers for Vision-Langugage Models (VLMs) to enhance downstream vision tasks. Our GLOV →

发现论文，激发创造

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

语言模型作为视觉-语言模型的黑盒优化器

通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

Sep, 2023

基于梯度约束的锐度感知提示学习用于视觉语言模型

该研究纸针对一个新颖的权衡问题，即在视觉语言模型（VLM）的可推广提示学习中，提高对未知类别的性能同时保持对已知类别的性能。通过分析当前方法和广泛使用的锐度感知最小化（SAM）的损失地形，我们得出结论：权衡性能与损失值和损失锐度相关，而两者都是必不可少的。然而，我们发现现有方法的优化梯度在整个优化过程中不能始终保持与损失值和损失锐度的高一致性。因此，我们提出了一种基于SAM的新方法，称为梯度约束锐度感知上下文优化（GCSCoOp），以动态约束优化梯度，从而同时实现上述的两个优化目标。广泛的实验证实了GCSCoOp在权衡问题上的有效性。

Sep, 2023

语言模型中的冰冻Transformer是有效的视觉编码层

利用大型语言模型进行视觉任务，通过冻结预训练的语言模型的转换器块作为视觉令牌的编码器层，能够显著改善计算机视觉任务的性能，并提出信息过滤假设来解释预训练语言模型在视觉编码中的有效性。

Oct, 2023

基于深度学习的视觉-语言任务统一框架

通过引入pool-adapter模块，保留视觉嵌入的位置信息，我们的InfMLLM方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉-语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在11个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

LM4LV：一个用于低级图像任务的冻结大型语言模型

该研究论文提出了一种名为LM4LV的框架，它能够使冻结的大型语言模型(LLM)解决一系列的低层次视觉任务，展示了LLM在低层次视觉中的强大潜力，并且架起了MLLM和低层次视觉任务之间的桥梁。

May, 2024

VisionLLM v2：一种适用于数百种视觉语言任务的端到端通用多模态大语言模型

VisionLLM v2是一种端到端的多模态大型模型，它在一个框架中统一了视觉感知、理解和生成。它通过一种名为“超级链接”的信息传输机制连接了模型与特定任务解码器，以实现灵活的任务信息传输和梯度反馈，并在多任务场景中解决训练冲突，并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化，达到与特定任务模型相当的性能。

Jun, 2024

TroL：大规模语言与视觉模型的层遍历

一种新的高效LLVM家族，通过层级遍历的技术有效提升性能，使其超越了具有更大模型规模的开源LLVM并与具有实质规模的闭源LLVM相媲美。

Jun, 2024