Feb, 2024

将语言模型与视觉实体识别连接

TL;DRAutoVER 是一种用于视觉实体识别的自回归模型,通过使用检索增强的约束生成来扩展多模态大型语言模型,以解决在域外实体上表现不佳但在需要视觉定位推理的查询上表现出色的问题。该方法通过在与序列到序列目标并行训练的同时对困难的负样本对进行对比训练,学习区分庞大标签空间内的相似实体。在推理过程中,一系列检索到的候选答案通过删除无效的解码路径明确地指导语言生成。所提出的方法在最近提出的 Oven-Wiki 基准测试的不同数据集划分上取得显著改进,实体已见划分的准确率从 32.7% 提高至 61.5%。在未见和查询划分上也通过大幅度的两位数优势展示出卓越性能。