LLM-wrapper：黑盒语义感知适应视觉语言基础模型

Sep, 2024

LLM-wrapper：黑盒语义感知适应视觉语言基础模型

LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models

Amaia Cardiel, Eloi Zablocki, Oriane Siméoni, Elias Ramzi, Matthieu Cord

TL;DR本研究解决了视觉语言模型（VLMs）在零-shot能力上的局限性，尤其是与专用或微调模型相比的不足。提出的LLM-wrapper通过利用大型语言模型（LLMs）以黑盒方式适应VLMs，从而在复杂的开放词汇任务上展现出明显的效果提升，业绩在与传统微调方法对比中取得竞争力的结果。

Abstract

Vision Language Models (VLMs) have shown impressive performances on numerous tasks but their zero-shot capabilities can be limited compared to dedicated or fine-tuned models. Yet, fine-tuning VLMs comes with limitations as it requires `white-box' access to the model's architecture and

发现论文，激发创造

LLM2Loss: 利用语言模型进行可解释性模型诊断

利用大型语言模型，结合跨模态基础模型CLIP，提取视觉输入的语义有意义的表示，并利用轻量诊断模型，对模型失败与偏差进行分析，从而了解黑盒模型的性能

May, 2023

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建LLMs和VL任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于LaBIn大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

语言模型作为视觉-语言模型的黑盒优化器

通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

Sep, 2023

基于深度学习的视觉-语言任务统一框架

通过引入pool-adapter模块，保留视觉嵌入的位置信息，我们的InfMLLM方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐VLMs与人类智能的能力，我们提出了Auto-Bench作为一个灵活、可扩展和全面的评估benchmark。

Nov, 2023

赋能多模态知识存储和共享的视觉增强LLMs

通过MKC2散裝部件集成到LLMs中，来存储和分享多模态知识，以增强LLMs的推理能力，从而在需要物理或常识知识的上下文中提供竞争性结果。

Nov, 2023

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

TroL：大规模语言与视觉模型的层遍历

一种新的高效LLVM家族，通过层级遍历的技术有效提升性能，使其超越了具有更大模型规模的开源LLVM并与具有实质规模的闭源LLVM相媲美。

Jun, 2024