无相关标签的精确零样本密集检索

Dec, 2022

无相关标签的精确零样本密集检索

Precise Zero-Shot Dense Retrieval without Relevance Labels

Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan

TL;DR本篇论文中，我们提出一种基于 Hypothetical Document Embeddings (HyDE) 的零样本密集检索方法，其中通过无监督编码器将虚构文档编码为向量，并在文本相似性检索中表现出强大的性能。

Abstract

While dense retrieval has been shown effective and efficient across tasks and languages, it remains difficult to create effective fully zero-shot dense retrieval systems when no relevance label is available. In this paper, we recognize the difficulty of →

dense retrieval zero-shot learning hypothetical document embeddings unsupervised contrastively learned encoder relevance patterns

发现论文，激发创造

选择用于零样本搜索的密集检索器

选择在没有标签可用的新收集中搜索时使用的密集检索模型是一个重要而困难的问题，因为不同的密集检索模型在不同数据集上的搜索效果差异很大。我们建议信息检索社区考虑这个问题，并提供在无需标签进行评估的零样本设置中选择高效密集检索模型的可靠方法。

Sep, 2023

基于伪相关反馈的多重表示密集检索

本研究探讨了基于伪相关反馈的多重嵌入密集检索方法的潜力。通过从第一遍密集检索中确定的伪相关文件集中提取代表性反馈嵌入，然后将其添加到查询表示中，证明了这些附加反馈嵌入不仅能够提高重新排序的有效性，还能提高附加密集检索操作的效率。

Jun, 2021

面向交谈式搜索的上下文化查询嵌入

本文以学习到的密集表示为基础，描述了一种紧凑而有效的模型，用于对话搜索中的低延迟段落检索。通过将对话查询重构直接整合到密集检索模型中，我们提出了一种新方法来解决现有流程的问题。在构建具有伪相关性标签的数据集的基础上，证明了该模型可用于会话检索和开放域问答数据集，最后通过改进的检索模型学习到的特性，支持混合检索和错误分析。

Apr, 2021

为实体检索学习密集表示

使用双编码器模型，在相同的密集向量空间中对实体和提及进行编码，并通过近似最近邻搜索检索候选实体，从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器，该方法优于离散别名表和 BM25 基线，并且与标准 TACKBP-2010 数据集中最佳结果相当，还可以快速检索候选者，并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面，我们演示了无监督的负采矿算法在这一任务中的重要作用。

Sep, 2019

基于搜索智能体和混合环境的零次检索

本文主要研究的是学习搜索领域中，通过基于符号的查询重构策略组合基于词项的传统检索来学习人工智能搜索引擎检索的能力，同时也拓展到了混合检索环境来进行离散查询操作，本文的实验证明了在这种混合环境下，基于 HRE 的搜索代理在 BEIR 任务中优于传统方法。

Sep, 2022

重新审视稀疏检索用于少样本实体链接

通过稀疏检索方法和基于 ELECTRA 的关键词提取器，提出了一种改进的实体链接方法以精确连接知识库中的模糊提及，对于限定领域的有限标注数据，实验证明该方法在 ZESHEL 数据集上明显优于现有模型，在所有测试领域中表现出关键词增强稀疏检索的有效性。

Oct, 2023

零样本稠密检索的全面探讨

本文通过第一次全面细致的研究，发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型，从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。

Apr, 2022

查询短语表示来自动创建命名实体识别数据集

本研究利用短语嵌入搜索构建高覆盖率的实体词典，并利用其生成具有高覆盖率的命名实体识别（NER）数据集。通过利用字典中候选短语与目标实体类型之间的嵌入距离来减少噪声，实现了弱监督 NER 模型的改进。在 6 个 NER 基准测试中，与当前弱监督 NER 模型相比，HighGEN 表现出更为优异的性能。

Oct, 2022

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

通过桥接训练 - 推理差距实现密集短语检索

本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能，在密集短语检索中取得了 2~3 个关键短语检索准确度和 2~4 个段落检索准确度的提升。

Oct, 2022