May, 2023

对比视觉语言模型中的文本编码器是性能瓶颈

TL;DR通过创建 CompPrompts 数据集的方法,研究了视觉-语言模型的编码模式对语言信息的损失情况,并提出了基于文本恢复的方法和 ControlledImCaps 评估基准,发现文本恢复能力与模型适用于呈现目标属性关系、计数、否定和多目标交互等复合要素的能力相关性强,并表明这是对偶视觉+语音模型的必要条件。