无相关标签的精确零样本密集检索
选择在没有标签可用的新收集中搜索时使用的密集检索模型是一个重要而困难的问题,因为不同的密集检索模型在不同数据集上的搜索效果差异很大。我们建议信息检索社区考虑这个问题,并提供在无需标签进行评估的零样本设置中选择高效密集检索模型的可靠方法。
Sep, 2023
本研究探讨了基于伪相关反馈的多重嵌入密集检索方法的潜力。通过从第一遍密集检索中确定的伪相关文件集中提取代表性反馈嵌入,然后将其添加到查询表示中,证明了这些附加反馈嵌入不仅能够提高重新排序的有效性,还能提高附加密集检索操作的效率。
Jun, 2021
本文以学习到的密集表示为基础,描述了一种紧凑而有效的模型,用于对话搜索中的低延迟段落检索。 通过将对话查询重构直接整合到密集检索模型中,我们提出了一种新方法来解决现有流程的问题。 在构建具有伪相关性标签的数据集的基础上,证明了该模型可用于会话检索和开放域问答数据集,最后通过改进的检索模型学习到的特性,支持混合检索和错误分析。
Apr, 2021
使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集中最佳结果相当,还可以快速检索候选者,并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面,我们演示了无监督的负采矿算法在这一任务中的重要作用。
Sep, 2019
本文主要研究的是学习搜索领域中,通过基于符号的查询重构策略组合基于词项的传统检索来学习人工智能搜索引擎检索的能力,同时也拓展到了混合检索环境来进行离散查询操作,本文的实验证明了在这种混合环境下,基于 HRE 的搜索代理在 BEIR 任务中优于传统方法。
Sep, 2022
通过稀疏检索方法和基于 ELECTRA 的关键词提取器,提出了一种改进的实体链接方法以精确连接知识库中的模糊提及,对于限定领域的有限标注数据,实验证明该方法在 ZESHEL 数据集上明显优于现有模型,在所有测试领域中表现出关键词增强稀疏检索的有效性。
Oct, 2023
本文通过第一次全面细致的研究,发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型,从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。
Apr, 2022
本研究利用短语嵌入搜索构建高覆盖率的实体词典,并利用其生成具有高覆盖率的命名实体识别(NER)数据集。通过利用字典中候选短语与目标实体类型之间的嵌入距离来减少噪声,实现了弱监督 NER 模型的改进。在 6 个 NER 基准测试中,与当前弱监督 NER 模型相比,HighGEN 表现出更为优异的性能。
Oct, 2022
本文介绍一种无监督训练的密集感知器,使用对比学习 (contrastive learning) 的方法,提高了信息检索的性能,并在多语言检索中表现出强大的跨语言转移能力。
Dec, 2021
本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能,在密集短语检索中取得了 2~3 个关键短语检索准确度和 2~4 个段落检索准确度的提升。
Oct, 2022