重新审视稀疏检索用于少样本实体链接

EMNLPOct, 2023

重新审视稀疏检索用于少样本实体链接

Revisiting Sparse Retrieval for Few-shot Entity Linking

Yulin Chen, Zhenran Xu, Baotian Hu, Min Zhang

TL;DR通过稀疏检索方法和基于 ELECTRA 的关键词提取器，提出了一种改进的实体链接方法以精确连接知识库中的模糊提及，对于限定领域的有限标注数据，实验证明该方法在 ZESHEL 数据集上明显优于现有模型，在所有测试领域中表现出关键词增强稀疏检索的有效性。

Abstract

entity linking aims to link ambiguous mentions to their corresponding entities in a knowledge base. One of the key challenges comes from insufficient labeled data for specific domains. Although →

entity linking knowledge base dense retrievers few-shot setting keyword-enhanced sparse retrieval

发现论文，激发创造

为实体检索学习密集表示

使用双编码器模型，在相同的密集向量空间中对实体和提及进行编码，并通过近似最近邻搜索检索候选实体，从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器，该方法优于离散别名表和 BM25 基线，并且与标准 TACKBP-2010 数据集中最佳结果相当，还可以快速检索候选者，并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面，我们演示了无监督的负采矿算法在这一任务中的重要作用。

Sep, 2019

基于稠密实体检索的可扩展零样本实体链接

本文介绍一种基于 BERT 的实体链接模型，采用两阶段的零样本链接算法，通过双编码器进行实体检索，并进一步用交叉编码器对候选实体进行重排序。经实验证明，这种方法不需要显式实体嵌入或手动工程化的实体表，已超越最近的零样本评估和已建立的非零样本评估（如 TACKBP-2010），并且具有速度快的优点。

Nov, 2019

利用粗到细的基于词典的检索器改进少样本和零样本实体连接

本论文提出了一种基于词典的粗粒度到细粒度检索器，在两个层次上进行检索，以有效地检索实体候选项，并利用实体描述来消除与现有流行实体重名的尾部或新实体的歧义性，实验结果表明，我们的方法在不需要进行大量微调的情况下可以获得卓越的性能，在中文 Few-shot 和 Zero-shot 实体链接的 NLPCC 2023 共享任务 6 中名列第一。

Aug, 2023

元学习在有效的少样本命名实体链接中的应用

本研究提出了一种基于元学习、弱监督和合成数据的方法，以解决自然语言处理领域中少样本实体链接任务。在实验中证明，该方法在少量标注数据情况下可以获得较好的效果，并具有良好的可迁移性。

Jul, 2022

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021

基于代理的零样本实体链接与有效候选项检索

本研究中使用基于代理的度量学习损失和对抗性正则化器以提高候选人检索阶段的效率，从而提供了一种有效的替代方法来解决候选人检索的困难问题，并展示了零样本设置下的使用。

Jan, 2023

突出短语感知的密集检索：密集检索器是否能模仿稀疏检索器？

介绍了一种称为 Salient Phrase Aware Retriever (SPAR) 的密集型检索器，在保留稀疏模型的词法匹配能力的同时，通过加入类似于稀疏模型的词汇模型 Lambda 来提高其检索性能。SPAR 在多个任务上表现出卓越性能，包括问答数据集，MS MARCO 段落检索以及 EntityQuestions 和 BEIR 评估。

Oct, 2021

多语种实体链接基于密集检索

实体链接是将文本提及与相应实体连接的计算过程。本论文通过开发多个系统，证明了即使资源有限，也可以构建在多种语言中运作的竞争性神经网络实体链接系统，从而使实体链接更容易接近。

May, 2024

短社交媒体文本中实体链接的强韧候选生成

研究了 Tweet 领域中实体链接方法的挑战，提出了一种使用来自维基百科的长上下文表示的混合解决方案，经过实验评估和比较，取得了 0.93 的召回率。

Oct, 2022

面向大规模检索的词库增强密集检索器 (LED)

本研究提出一种基于知识蒸馏的方法，将富有知识的词典嵌入模型对齐到密集检索模型中，从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性，并且与标准排名器蒸馏相结合可以进一步提高检索效果。

Aug, 2022