Sep, 2019

为实体检索学习密集表示

TL;DR使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集中最佳结果相当,还可以快速检索候选者,并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面,我们演示了无监督的负采矿算法在这一任务中的重要作用。