ACLJun, 2024

OLIVE:物体级别的上下文视觉嵌入

TL;DR通过在上下文中引入视觉对象向量,我们提出了一种新的方法来引导大型语言模型,从而实现可控的对象级推理,消除了融合冗长图像区块特征的必要性,显著加速了训练。此外,我们还提出了使用对象表示进行区域级检索的方法,便于快速适应新对象而无需额外训练。我们的实验证明,我们的方法在参考对象分类和字幕生成性能上达到了竞争力,并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。