多国检索器：密集检索表示分析

Feb, 2024

MultiContrievers: Analysis of Dense Retrieval Representations

Seraphina Goldfarb-Tarrant, Pedro Rodriguez, Jane Dwivedi-Yu, Patrick Lewis

TL;DR压缩源文件并以（可能会有损失的）矢量表示的密集检索器将所保存的信息与丢失的信息相比，并分析其对下游任务的影响。通过在带有 25 个随机初始化的 MultiBERT 检查点上训练的 MultiContrievers，我们对密集检索器捕获的信息进行了第一次分析。通过信息论探测，我们测量了从类似维基百科的文件的 Contriever 矢量中是否可以提取特定信息，如性别和职业。我们还研究了提取性与性能和性别偏见之间的关系，以及这些结果对随机初始化和数据洗牌的敏感性。我们发现：（1）Contriever 模型的提取性明显增加，但提取性通常与基准性能相关性较差；（2）存在性别偏见，但不是由 Contriever 表示引起的；（3）对随机初始化和数据洗牌的敏感性较高，因此未来的检索研究应该在更广泛的范围内进行测试。

Abstract

dense retrievers compress source documents into (possibly lossy) vector representations, yet there is little analysis of what information is lost versus preserved, and how it affects downstream tasks. We conduct

dense retrievers information loss downstream tasks gender bias random initialisations

发现论文，激发创造

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

CONVERSER：基于合成数据生成的小样本对话稠密检索

使用 CONVERSER 框架，在最多 6 个领域对话示例的情况下，利用大规模语言模型的上下文学习能力为基于对话的密集重排进行训练，实验结果表明所提出的框架在少样本对话密集重排中取得了可比较的性能。

Sep, 2023

UnifieR: 大规模信息检索统一检索器

本论文提出了一种名为 UnifieR 的学习框架，它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中，并在多个基准测试中验证了其有效性和可转移性。

May, 2022

轻量级混合检索器的效率和泛化性研究

本文提出了一种基于索引高效的密集检索器（DrBoost）的轻量级混合检索器和一个更轻的密集检索器（LITE）来减少混合检索器的内存占用，并探究了轻量级混合检索器在域外泛化和对抗性攻击鲁棒性方面的表现。相比较以前的混合检索器，我们的 Hybrid-LITE 检索器在保持 98.0% 性能的同时节约了 13 的内存使用。

Oct, 2022

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021

密集检索：我们应该使用什么检索粒度？

密集检索是一种获取相关背景或世界知识的开放领域自然语言处理任务的显著方法，检索单元的选择显著影响检索和下游任务的性能，与传统的段落或句子方法相比，基于命题的检索在密集检索中明显优于传统的检索方法，并通过提供与问题相关的信息来改进下游问答任务的性能。

Dec, 2023

ControlRetriever: 利用指令的威力实现可控检索

使用控制器架构的 ControlRetriever，通过自然语言中提供的特定检索意图，解决了密集检索模型在不同检索任务中表现不佳的问题，同时结合大型语言模型的发展，提出了一种新的策略来迭代地训练 ControlRetriever，经过大量实验证明其在多个检索任务上显著优于基线方法，并取得了最先进的零 - shot 性能。

Aug, 2023

通过桥接训练 - 推理差距实现密集短语检索

本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能，在密集短语检索中取得了 2~3 个关键短语检索准确度和 2~4 个段落检索准确度的提升。

Oct, 2022

超越相关性：评估和提升具备观点感知的检索模型

信息检索任务要求系统根据用户的信息需求识别相关文档。这项研究探讨了检索系统是否能够识别和回应查询的不同视角，以及利用几何特征改善检索系统的视角意识。

May, 2024

无相关标签的精确零样本密集检索

本篇论文中，我们提出一种基于 Hypothetical Document Embeddings (HyDE) 的零样本密集检索方法，其中通过无监督编码器将虚构文档编码为向量，并在文本相似性检索中表现出强大的性能。

Dec, 2022