Jun, 2022

一种用于文档检索的神经语料库索引器

TL;DR本文研究介绍了一种基于神经网络领域的全端到端文档检索方法,通过采用特定的技术,包括查询生成、语义文档标识符和基于一致性的规则化,并引入前缀感知、权重适应解码器架构,NCI(神经语料库索引器)可以直接生成相关文档标识符以实现课题回忆的最佳表现。经实证研究,NCI 在两个常用的学术基准测试中,相对于最佳基线方法,在 NQ320k 数据集的 Recall@1 上实现了 + 21.4% 的相对增强,在 TriviaQA 数据集的 R-Precision 上实现了 + 16.8% 的相对增强。