密集检索中鲁棒性表示学习

Jun, 2023

Typo-Robust Representation Learning for Dense Retrieval

Panuthep Tasawong, Wuttikorn Ponwitayarat, Peerat Limkonchotiwat, Can Udomcharoenchaikit, Ekapol Chuangsuwanich...

TL;DR提出了一种新方法来解决处理拼写错误查询的问题，并在两个基准数据集和两个基础编码器中取得了比现有方法更好的性能。

Abstract

dense retrieval is a basic building block of information retrieval applications. One of the main challenges of dense retrieval in real-world settings is the handling of queries containing misspelled words. A popu

dense retrieval misspelled queries representations discrepancy benchmark datasets base encoders

发现论文，激发创造

使用深度查询交互学习多样的文档表示进行密集检索

提出了一种新的密集检索模型，使用深度查询交互学习多样的文档表示，通过生成的伪查询对每个文档进行编码，以获得查询信息和多视角的文档表示，不仅具有类似于原始双编码器模型的高推理效率，还可以在文档编码中实现深入的查询 - 文档交互并提供多方面的表示来更好地匹配不同的查询。

Aug, 2022

产品问答中高效易于解释的异构数据信息检索

通过最小化词汇匹配问题，扩展增强的稀疏词汇表示改善了信息检索，并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制，通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明，我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%（稀疏）和 2.7%（密集）。此外，我们的模型在减少响应时间（延迟）30% 和减少计算负载（FLOPs）约 38% 的同时，提供了更好的可解释性，并且表现与最先进的交叉编码器相当。

May, 2024

面向大规模检索的词库增强密集检索器 (LED)

本研究提出一种基于知识蒸馏的方法，将富有知识的词典嵌入模型对齐到密集检索模型中，从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性，并且与标准排名器蒸馏相结合可以进一步提高检索效果。

Aug, 2022

基于 BERT 的段落检索和排名中处理打字错误的方法

本文探讨了针对关键字错别字造成的关键字不匹配所产生的影响，针对这一问题，我们提出了简单而有效的错别字感知培训框架，实验证明该框架可以显著提高 DR 和 BERT Re-ranker 的有效性。

Aug, 2021

使用 CharacterBERT 和自学习技术提高密集检索器对带有拼写错误查询的健壮性

本文研究了密集型检索器在处理拼写错误查询时的问题，并提出了使用 CharacterBERT 作为骨干编码器和自我教学（ST）方法的密集型检索器，这样可以在具有拼写错误的查询上实现更高的效果。在此基础上，文章还提供了一个包含真实查询和相关性评估数据集，并在 https://github.com/facebookresearch/DPR 上公开了代码和实验结果。

Apr, 2022

通过生成伪查询嵌入以改善密集检索的文档表示

本论文提出了一种基于聚类的检索模型，通过迭代聚类过程来模拟查询，并将文档表示为多个伪查询，通过两步得分计算程序优化匹配函数，实现了高效的近似最近邻搜索，达到了最先进的结果。

May, 2021

稠密通道检索器的复制研究

本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020

文本检索中的稀疏、密集和注意力表示

该研究探讨了双编码器的检索能力，并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制，具体表现为编码维数，金标和排名较低文件之间的边际，以及文档长度。在此基础上，该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型，并探索了稀疏 - 密集混合模型以提高检索精度，这些模型在大规模检索中胜过强有力的替代方案。

May, 2020

为实体检索学习密集表示

使用双编码器模型，在相同的密集向量空间中对实体和提及进行编码，并通过近似最近邻搜索检索候选实体，从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器，该方法优于离散别名表和 BM25 基线，并且与标准 TACKBP-2010 数据集中最佳结果相当，还可以快速检索候选者，并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面，我们演示了无监督的负采矿算法在这一任务中的重要作用。

Sep, 2019