- BMRetriever: 优化大型语言模型作为更好的生物医学文本检索器
BMRetriever 是一系列密集的检索器,通过在大型生物医学语料库上进行无监督预训练,然后在标记数据集和合成对上进行指导微调,提升生物医学检索的效果。在 11 个数据集上的 5 个生物医学任务实验证实了 BMRetriever 在各种生 - 多国检索器:密集检索表示分析
压缩源文件并以(可能会有损失的)矢量表示的密集检索器将所保存的信息与丢失的信息相比,并分析其对下游任务的影响。通过在带有 25 个随机初始化的 MultiBERT 检查点上训练的 MultiContrievers,我们对密集检索器捕获的信息 - 对密集通道检索器的后门攻击以传播虚假信息
通过语法错误在密集文段检索中引发危险的后门攻击,通过我们的方法,当用户查询无误时,我们的模型始终可靠地检索准确的信息,同时有效地过滤掉误导性信息。然而,当查询存在语法错误时,我们的系统显著提高了获取目标内容的成功率。
- 跨语种多语义搜索的领域适应 - 文献综述
该文献综述提供了对于在低资源环境中进行领域适应以及低资源环境中进行多语义搜索的当前方法的概述。我们开发了一种新的分类方法,将领域适应方法基于对于密集文本信息检索系统的部分适应进行聚类,并重点关注如何高效地进行组合。同时,我们还探讨了将多语义 - 回归基础:提升密集编码器领域外检索的简单方法
通过改进训练过程,使用参数高效的方法和适当的负样本,可以提高密集编码器在训练时的泛化能力,从而在单一数据集上训练时实现有效的泛化。
- EMNLP通过注入对抗性段落污染检索语料库
在这份研究中,我们提出了一种新的攻击方法,通过扰乱离散标记以最大限度地与提供的一组训练查询相似,从而为密集检索系统生成少量的对抗性段落。当这些对抗性段落插入到大规模的检索语料库中时,我们证明这种攻击在欺骗这些系统在攻击者未见过的查询中进行检 - EMNLP重新审视稀疏检索用于少样本实体链接
通过稀疏检索方法和基于 ELECTRA 的关键词提取器,提出了一种改进的实体链接方法以精确连接知识库中的模糊提及,对于限定领域的有限标注数据,实验证明该方法在 ZESHEL 数据集上明显优于现有模型,在所有测试领域中表现出关键词增强稀疏检索 - 大语言模型中上下文案例检索学习
本文提出了一种新的框架,通过训练密集检索器来识别高质量的上下文示例,进而提高大型语言模型(LLMs)的上下文学习表现。实验证明了该框架可以显著地提高在各种任务上的性能,而且具有良好的泛化能力。
- ACL具有相关感知对比预训练的无监督密集检索
本文提出了一种基于对中间训练模型的关联系统估计和自适应加权的相关性感知对比度学习方法,应用于无监督稠密 Retriever 模型,提高了其检索效果并且表现出很好的 few-shot 学习能力。
- AugTriever:可扩展的数据增强无监督密集检索
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
- CITADEL: 通过动态词汇路由的条件化令牌交互,实现高效和有效的多向量检索
本文从令牌路由视角统一不同的多向量检索模型,提出通过动态词汇路由的条件令牌交互,即 CITADEL,以实现高效且有效的多向量检索。通过将不同的令牌向量路由到预测的词汇 “关键词”,以便查询令牌向量只与路由到相同关键词的文档令牌向量进行交互, - EMNLP通过桥接训练 - 推理差距实现密集短语检索
本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能,在密集短语检索中取得了 2~3 个关键短语检索准确度和 2~4 个段落检索准确度的提升。
- Aggretriever:一种用于稳健稠密段落检索的简单文本表示聚合方法
本研究采用一种简单的方法,有效地将预训练转换器中的文本表示聚合成稠密向量,从而提高了在不同领域和零样本评估下单向量方法的鲁棒性,进而表明 MLM 预训练变形金刚可以用于将文本信息编码成单个向量以进行密集检索。
- Obj2Sub: 无监督将客观问题转化为主观问题
本文提出了一种新颖的混合非监督学习方法,采用基于规则的方法和预训练的稠密检索器,自动将客观问题转换为主观问题,从而测试学习者的理解程度。实验证明,相对于现有的数据驱动方法,本文的方法可以将召回率和准确率提高 36.45%。
- 适用于内存高效密集检索的领域适应
本文探讨了二进制文档向量的性能及传统压缩技术的局限性,并提出了一个基于 GPL 的领域自适应策略,可在不需要标注训练数据的情况下,将 BPR 和 JPQ 调整适应任何语料库,提高了 nDCG@10 平均 11.6 - 19.3 分,并且仍保 - SIGIR使用 CharacterBERT 和自学习技术提高密集检索器对带有拼写错误查询的健壮性
本文研究了密集型检索器在处理拼写错误查询时的问题,并提出了使用 CharacterBERT 作为骨干编码器和自我教学(ST)方法的密集型检索器,这样可以在具有拼写错误的查询上实现更高的效果。在此基础上,文章还提供了一个包含真实查询和相关性评 - SIGIRAsyncval:一个工具包,用于在训练期间异步验证密集的检索器检查点
该研究论文介绍 Asyncval 工具,旨在解决验证 DR(密集检索器)检查点的问题,通过在训练期间异步执行验证循环,并提出不同的语料子集采样策略以进一步加快验证过程。
- EMNLP会话式搜索中解除密集检索器的快捷依赖
本篇论文探讨了会话式搜索中存在的检索捷径,导致模型仅依赖于模式化的历史信息进行检索,而忽略最新的问题,并提出了拉丁激烈的负面挖掘策略,以训练更加健壮的模型。经过实验证明,使用基于模型的重负面挖掘的方法有效地减缓了依赖捷径的影响,显著提高了最 - 无监督对比学习密集信息检索
本文介绍一种无监督训练的密集感知器,使用对比学习 (contrastive learning) 的方法,提高了信息检索的性能,并在多语言检索中表现出强大的跨语言转移能力。
- 基于伪相关反馈的密集检索查询表示:重现性研究
本文研究了基于稠密循环器的 Pseudo-Relevance Feedback (PRF) 方法,并探讨了其在不同情况下如何提高搜索效果,包括训练过程、推理过程和使用不同的稠密循环器。