将语言模型与视觉实体识别连接

Feb, 2024

Grounding Language Models for Visual Entity Recognition

Zilin Xiao, Ming Gong, Paola Cascante-Bonilla, Xingyao Zhang, Jie Wu...

TL;DRAutoVER 是一种用于视觉实体识别的自回归模型，通过使用检索增强的约束生成来扩展多模态大型语言模型，以解决在域外实体上表现不佳但在需要视觉定位推理的查询上表现出色的问题。该方法通过在与序列到序列目标并行训练的同时对困难的负样本对进行对比训练，学习区分庞大标签空间内的相似实体。在推理过程中，一系列检索到的候选答案通过删除无效的解码路径明确地指导语言生成。所提出的方法在最近提出的 Oven-Wiki 基准测试的不同数据集划分上取得显著改进，实体已见划分的准确率从 32.7% 提高至 61.5%。在未见和查询划分上也通过大幅度的两位数优势展示出卓越性能。

Abstract

We introduce autover, an Autoregressive model for visual entity recognition. Our model extends an autoregressive multi-modal large language model

autover visual entity recognition autoregressive multi-modal large language model retrieval augmented constrained generation oven-wiki benchmark

发现论文，激发创造

自回归实体检索

GENRE 是第一个通过自回归方式逐个 token 生成实体名称以检索实体的系统，此方法可以在自动编码器中直接捕捉上下文和实体名称之间的关系，从而减少内存占用并提高检索效率。

Oct, 2020

一种面向维基百科规模的视觉实体识别的生成方法

本文旨在探讨网络规模的视觉实体识别，介绍了一个名为 GER 的新型实体识别框架，通过学习自动解码一个语义和区别性的 “编码” 来识别目标实体，并证明其在应对网络规模识别复杂性方面具有优势。

Mar, 2024

面向可计算验证的语言模型语义基础研究

本文提出了一种语义基础的语言模型方法，将语言模型嵌入到自编码器中，在保持语义解析器冻结的同时通过采样和训练提高了自动生成的文本的流畅度和语义准确性，使用 BLEU 分数和标准解析度量在 English WebNLG 3.0 数据集上进行实验，并通过人工评估验证了自动评估实验的结果。

Nov, 2022

开放领域视觉实体识别：朝着识别数百万维基百科实体迈进

本文正式提出了开放域视觉实体识别（OVEN）这一任务，为评估预训练模型的普适性，构建了一个最大标签数量的通用视觉识别基准数据集。该数据集将 14 个现有的数据集标签全部调整为维基百科实体，其中包含了六百万个可能的实体，我们在此基础上测试了一系列领先的预训练模型，并发现不同的模型各有千秋。

Feb, 2023

GPT-4 增强型自动驾驶多模态基础：借助大型语言模型的跨模态注意力

在自动驾驶车辆领域中，准确识别指挥者意图并在视觉环境中执行语言指令是一个巨大的挑战。本文介绍了一个复杂的编码器 - 解码器框架，用于解决自动驾驶车辆中的视觉 grounding 问题。我们的 Context-Aware Visual Grounding (CAVG) 模型是一个先进的系统，将文本、图像、上下文和跨模态的五个核心编码器集成到一个多模态解码器中。该模型通过实施多头跨模态注意力机制和区域特定动态 (RSD) 层，能够高效处理和解释一系列跨模态输入，从而全面理解口头指令和相应的视觉场景之间的相关性。在真实世界基准数据集 Talk2Car 上的实证评估表明，CAVG 在预测准确性和操作效率方面树立了新的标准。值得注意的是，即使在完整数据集的 50% 到 75% 的有限训练数据的情况下，该模型表现出色。这一特点凸显了它在实际自动驾驶应用中的效果和潜力。此外，CAVG 在挑战性场景中展现出了卓越的强健性和适应性，包括长文本命令解释、低光条件、模糊的命令上下文、恶劣天气条件和人口密集的城市环境。该模型的代码可在我们的 Github 上找到。

Dec, 2023

虚拟助手的辨别式实体感知语言模型

本文研究提出了一种基于知识图谱的语言建模方法，通过有效的格栅重排过程，达到了相对句子错误率的降低，为虚拟助手 ASR 的精度提高提供了强有力的支持。

Jun, 2021

MuVER: 多视角实体表示优化第一阶段实体检索

该研究提出了一种新方法，称为多视图实体表示（MuVER），旨在提高实体检索的性能，通过启发式搜索方法构造实体描述的多视图表示，并通过这种方式提高候选实体的质量。该方法在 ZESHEL 上取得了最新的性能，并在三个标准实体链接数据集上改善了候选者的质量。

Sep, 2021

面向任务个性化的多模态少样本学习在视觉丰富的文档实体检索中的应用

本研究旨在解决实体级少样本视觉文档实体检索 (VDER) 任务的挑战，并通过引入任务感知的元学习框架以及新的数据集 FewVEX，显著提高了流行的元学习基准模型的鲁棒性。

Nov, 2023

ClawMachine：提取视觉令牌作为实体进行指代和定位

ClawMachine 是一种新的方法，通过直接使用视觉令牌来编码实体，统一了视觉引用和定位的自动回归格式，并通过仅有解码器的架构进行学习，实现了对视觉引用和定位任务的竞争性表现，并减少了对训练数据的需求。此外，ClawMachine 展示了在复杂视觉推理方面整合多源信息的本地能力，这是先前的多模态大型语言模型很难在没有特定适应的情况下实现的。

Jun, 2024

实体增强代码生成

该论文通过引入可检索增强的大型语言模型（LLMs），拓展了检索增强 LLMs 的应用领域，以代码生成为例，并提出了一种新颖的可训练架构，将可检索实体注入到 LLM 解码器中，以解决现有模型在相似实体名之间无法分配相关性分数的问题，并在多个场景下超越常见基准模型，包括项目级代码生成、Bash 和 SQL 脚本。

Dec, 2023