密集检索的噪声对矫正器

EMNLPNov, 2023

Noisy Pair Corrector for Dense Retrieval

Hang Zhang, Yeyun Gong, Xingwei He, Dayiheng Liu, Daya Guo...

TL;DR本文介绍了一种名为 Noisy Pair Corrector (NPC) 的新方法，该方法包含一个检测模块和一个校正模块，用于训练具有不匹配对噪声的有效模型，并在实验中展示了其在处理合成和实际噪声方面的出色性能。

Abstract

Most dense retrieval models contain an implicit assumption: the training query-document pairs are exactly matched. Since it is expensive to annotate the corpus manually, training pairs in real-world applications are usually collected automatically, which inevitably introduces

dense retrieval models mismatched-pair noise noisy pair corrector detection module correction module

发现论文，激发创造

REPAIR：用记忆对无噪声对应进行排序相关和噪声对半替换

通过维护匹配对特征的记忆库，我们提出了一种称为 REPAIR 的广义框架，利用记忆库中的特征计算两个模态的距离并使用这两组距离的秩相关性估计目标对的软对应标签。对于完全不匹配的对，REPAIR 搜索记忆库以替换某个模态的一个特征，而不是直接使用原始对或仅丢弃不匹配的对。我们在 Flickr30K、MSCOCO 和 CC152K 三个跨模态数据集上进行了实验，证明了我们的 REPAIR 在合成和现实世界的噪声下的有效性和鲁棒性。

Mar, 2024

噪声交叉模态匹配的负先知

在处理含噪声的下游任务时，我们提出了一种新颖的负预知交叉模态匹配解决方案，通过负面影响评估和使用记忆库维持性能稳定，实现大型视觉语言模型的高精调。实验证明，我们的方法显著提高了匹配准确性和性能稳定性，并明显超过了现有的基准方法。

Dec, 2023

具有元相似性校正的嘈杂对应关系学习

该论文提出了一种元相似性纠正网络（MSCN），通过元数据提供可靠的相似性打分，同时设计了数据净化策略来降低噪声影响，提高跨模态检索方法的性能。实验结果表明该方法在处理各种噪声数据集时具有优异的表现。

Apr, 2023

使用对比性置信度规范化缓解密集检索中的假阴影的影响

通过引入一种新的对比置信度正则化器用于噪声对比估计（NCE）损失，以提高稠密检索模型对于假阴性的鲁棒性，并通过过滤数据集中的噪声负面篇章的方法改进下游稠密检索模型的检索性能。

Dec, 2023

通过自我加强误差缓解的噪声对应学习

通过引入一种名为自我加强误差抑制（SREM）的新型噪声对应关系学习框架，通过将样本匹配视为批处理中的分类任务，我们生成给定样本的分类 logits，通过能量不确定性优化样本筛选，并使用交换分类熵估计所选干净样本的模型灵敏度，从而改善交叉模态检索的准确性和稳定性。同时，我们提出了交叉模态偏向性互补学习，以利用在难负例训练中被忽视的负匹配，进一步提高模型的优化稳定性和抑制自我加强错误。在具有挑战性的基准测试中进行的广泛实验证实了 SREM 的有效性和高效性。

Dec, 2023

噪声自训练与合成查询的密集检索

使用新颖的带有合成查询的嘈杂自我训练框架，证明了神经检索器可以在没有依赖任何外部模型的情况下以自我进化的方式得到改进，实验证明我们的方法在常见领域（如 MS-MARCO）和领域外（即 BEIR）的检索基准上持续改进。进一步扩展该框架来进行 reranker 训练表明所提出的方法是通用的，在各个领域的任务上都能产生额外的收益。

Nov, 2023

预训练语言模型作为重新注释工具

本文讲述了如何利用预训练语言模型降噪数据集，提出了两种任务：注释不一致检测和注释错误更正。作者使用新的可信度分数来检测不一致性，并用两种方法来更正注释。此外，通过重新注释创建了一个新数据集 Re-DocRED，自动降噪训练集将对关系抽取模型产生多达 3.6％的性能提高。

May, 2022

用嘈杂对和局部监督进行观点摘要

本文提出了一种弱监督学习的意见摘要框架 NAPA，不需要客户和专业评论对作为训练数据，在自动评估指标和定性分析上得到了一致的改进，表明我们的系统可以生成类似专业评论员撰写的摘要。

Nov, 2022

密集文本检索的近似最近邻负对比学习

本文提出了一种新型的训练机制 --- ANCE (Approximate nearest neighbor Negative Contrastive Estimation), 它使用了一个近似最近邻索引来构建负面示例，以更好地解决稠密检索中负面实例训练不足的问题，并且通过实验证明了其在 BERT 模型上的有效性能达到了最佳效果。

Jul, 2020

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022