重新审视稀疏检索用于少样本实体链接
使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集中最佳结果相当,还可以快速检索候选者,并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面,我们演示了无监督的负采矿算法在这一任务中的重要作用。
Sep, 2019
本文介绍一种基于 BERT 的实体链接模型,采用两阶段的零样本链接算法,通过双编码器进行实体检索,并进一步用交叉编码器对候选实体进行重排序。经实验证明,这种方法不需要显式实体嵌入或手动工程化的实体表,已超越最近的零样本评估和已建立的非零样本评估(如 TACKBP-2010),并且具有速度快的优点。
Nov, 2019
本论文提出了一种基于词典的粗粒度到细粒度检索器,在两个层次上进行检索,以有效地检索实体候选项,并利用实体描述来消除与现有流行实体重名的尾部或新实体的歧义性,实验结果表明,我们的方法在不需要进行大量微调的情况下可以获得卓越的性能,在中文 Few-shot 和 Zero-shot 实体链接的 NLPCC 2023 共享任务 6 中名列第一。
Aug, 2023
本研究提出了一种基于元学习、弱监督和合成数据的方法,以解决自然语言处理领域中少样本实体链接任务。在实验中证明,该方法在少量标注数据情况下可以获得较好的效果,并具有良好的可迁移性。
Jul, 2022
本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题,并探讨了两种解决方案:第一种解决方法是数据扩充无法解决广义化问题,第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。
Sep, 2021
本研究中使用基于代理的度量学习损失和对抗性正则化器以提高候选人检索阶段的效率,从而提供了一种有效的替代方法来解决候选人检索的困难问题,并展示了零样本设置下的使用。
Jan, 2023
介绍了一种称为 Salient Phrase Aware Retriever (SPAR) 的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型 Lambda 来提高其检索性能。SPAR 在多个任务上表现出卓越性能,包括问答数据集,MS MARCO 段落检索以及 EntityQuestions 和 BEIR 评估。
Oct, 2021
实体链接是将文本提及与相应实体连接的计算过程。本论文通过开发多个系统,证明了即使资源有限,也可以构建在多种语言中运作的竞争性神经网络实体链接系统,从而使实体链接更容易接近。
May, 2024
研究了 Tweet 领域中实体链接方法的挑战,提出了一种使用来自维基百科的长上下文表示的混合解决方案,经过实验评估和比较,取得了 0.93 的召回率。
Oct, 2022
本研究提出一种基于知识蒸馏的方法,将富有知识的词典嵌入模型对齐到密集检索模型中,从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性,并且与标准排名器蒸馏相结合可以进一步提高检索效果。
Aug, 2022