自回归实体检索
本文旨在探讨网络规模的视觉实体识别,介绍了一个名为 GER 的新型实体识别框架,通过学习自动解码一个语义和区别性的 “编码” 来识别目标实体,并证明其在应对网络规模识别复杂性方面具有优势。
Mar, 2024
AutoVER 是一种用于视觉实体识别的自回归模型,通过使用检索增强的约束生成来扩展多模态大型语言模型,以解决在域外实体上表现不佳但在需要视觉定位推理的查询上表现出色的问题。该方法通过在与序列到序列目标并行训练的同时对困难的负样本对进行对比训练,学习区分庞大标签空间内的相似实体。在推理过程中,一系列检索到的候选答案通过删除无效的解码路径明确地指导语言生成。所提出的方法在最近提出的 Oven-Wiki 基准测试的不同数据集划分上取得显著改进,实体已见划分的准确率从 32.7% 提高至 61.5%。在未见和查询划分上也通过大幅度的两位数优势展示出卓越性能。
Feb, 2024
本文提出了一种高效的生成方法,采用并行自回归流程和浅层解码器实现实体消岐和链接,并增加了区分度组件,达到了比之前的方法更快( >70 倍)更准确的效果,代码开源。
Sep, 2021
使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集中最佳结果相当,还可以快速检索候选者,并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面,我们演示了无监督的负采矿算法在这一任务中的重要作用。
Sep, 2019
本文介绍了一种不需要标注的远程监督方法,可用于训练自回归召回器,以在零样本环境中获得竞争性召回率和精确率。此外,通过针对特定任务的监督微调,展示了利用少于 1/4 注释数据的情况下,基于 Wikipedia 的事实验证任务的自回归检索性能可以接近甚至超过全监督。这指出数据有效的自回归检索存在着可行的方向。
Nov, 2022
提出了一种采用两个辅助任务进行训练,学习在推断时重新排列生成样本的自回归实体链接模型。实验表明,在医学和新闻领域的两个基准数据集上,该模型在不使用知识库或候选集的情况下创造了新的最高成果,并表明辅助任务对提高性能很关键。
Apr, 2022
本研究利用短语嵌入搜索构建高覆盖率的实体词典,并利用其生成具有高覆盖率的命名实体识别(NER)数据集。通过利用字典中候选短语与目标实体类型之间的嵌入距离来减少噪声,实现了弱监督 NER 模型的改进。在 6 个 NER 基准测试中,与当前弱监督 NER 模型相比,HighGEN 表现出更为优异的性能。
Oct, 2022
本文提出了一种自适应 NER 方法,利用未经充分学习的实体作为查询,从非结构化文本中检索外部知识,以提高模型的性能。通过实验验证,该模型在 CrossNER 数据集上表现优于强基准模型 2.35 个 F1 分数。
Oct, 2022
本文介绍了 mGENRE,一个多语言实体链接(MEL)问题的序列到序列系统。使用自回归网络,mGENRE 将输入句子中的实体转化为 KB 中的目标实体,采用多语言实体名称匹配方案,在零样本情境下取得 50% 以上的性能提升,实现了最新的最好表现。
Mar, 2021