密集检索的噪声对矫正器
通过维护匹配对特征的记忆库,我们提出了一种称为 REPAIR 的广义框架,利用记忆库中的特征计算两个模态的距离并使用这两组距离的秩相关性估计目标对的软对应标签。对于完全不匹配的对,REPAIR 搜索记忆库以替换某个模态的一个特征,而不是直接使用原始对或仅丢弃不匹配的对。我们在 Flickr30K、MSCOCO 和 CC152K 三个跨模态数据集上进行了实验,证明了我们的 REPAIR 在合成和现实世界的噪声下的有效性和鲁棒性。
Mar, 2024
在处理含噪声的下游任务时,我们提出了一种新颖的负预知交叉模态匹配解决方案,通过负面影响评估和使用记忆库维持性能稳定,实现大型视觉语言模型的高精调。实验证明,我们的方法显著提高了匹配准确性和性能稳定性,并明显超过了现有的基准方法。
Dec, 2023
该论文提出了一种元相似性纠正网络(MSCN),通过元数据提供可靠的相似性打分,同时设计了数据净化策略来降低噪声影响,提高跨模态检索方法的性能。实验结果表明该方法在处理各种噪声数据集时具有优异的表现。
Apr, 2023
通过引入一种新的对比置信度正则化器用于噪声对比估计(NCE)损失,以提高稠密检索模型对于假阴性的鲁棒性,并通过过滤数据集中的噪声负面篇章的方法改进下游稠密检索模型的检索性能。
Dec, 2023
通过引入一种名为自我加强误差抑制(SREM)的新型噪声对应关系学习框架,通过将样本匹配视为批处理中的分类任务,我们生成给定样本的分类 logits,通过能量不确定性优化样本筛选,并使用交换分类熵估计所选干净样本的模型灵敏度,从而改善交叉模态检索的准确性和稳定性。同时,我们提出了交叉模态偏向性互补学习,以利用在难负例训练中被忽视的负匹配,进一步提高模型的优化稳定性和抑制自我加强错误。在具有挑战性的基准测试中进行的广泛实验证实了 SREM 的有效性和高效性。
Dec, 2023
使用新颖的带有合成查询的嘈杂自我训练框架,证明了神经检索器可以在没有依赖任何外部模型的情况下以自我进化的方式得到改进,实验证明我们的方法在常见领域(如 MS-MARCO)和领域外(即 BEIR)的检索基准上持续改进。进一步扩展该框架来进行 reranker 训练表明所提出的方法是通用的,在各个领域的任务上都能产生额外的收益。
Nov, 2023
本文讲述了如何利用预训练语言模型降噪数据集,提出了两种任务:注释不一致检测和注释错误更正。作者使用新的可信度分数来检测不一致性,并用两种方法来更正注释。此外,通过重新注释创建了一个新数据集 Re-DocRED,自动降噪训练集将对关系抽取模型产生多达 3.6%的性能提高。
May, 2022
本文提出了一种弱监督学习的意见摘要框架 NAPA,不需要客户和专业评论对作为训练数据,在自动评估指标和定性分析上得到了一致的改进,表明我们的系统可以生成类似专业评论员撰写的摘要。
Nov, 2022
本文提出了一种新型的训练机制 --- ANCE (Approximate nearest neighbor Negative Contrastive Estimation), 它使用了一个近似最近邻索引来构建负面示例,以更好地解决稠密检索中负面实例训练不足的问题,并且通过实验证明了其在 BERT 模型上的有效性能达到了最佳效果。
Jul, 2020
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022