- 基于原子单元的企业 RAG 的问题检索
通过将文档切分成原子语句并生成与原子语句相关的合成问题,本研究实现了在企业级检索增强生成中更准确的检索召回,并观察到使用原子语句检索和合成问题检索能够提高检索步骤的召回率,从而提高企业级大型语言模型的性能。
- 聊天检索器:将大型语言模型用于通用和鲁棒的对话密集检索
ChatRetriever 是一个通过对比学习调整的对话式检索模型,能够准确解读用户意图并表示复杂对话会话,通过在高质量对话指令数据上进行掩码训练进一步提升对话理解,实验证明在五个对话式检索基准上 ChatRetriever 显著优于现有模 - LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个 LLM 增强的检索框架,我们显著提高了广泛使用的检索模型(如 Bi-encoder - SIGIR生成式检索作为多向量密集检索
生成检索是使用序列到序列架构,以端到端的方式为给定查询生成相关文档标识符的方法。本文通过研究生成检索的注意力层和预测头,揭示了生成检索与多向量稠密检索在测量文档对查询的相关性时采用相同的框架,并通过实验证明了这些方法在对齐矩阵中的术语匹配上 - SIGIR密集检索的缩放定律
文章研究了稠密检索模型的性能是否遵循与其他神经模型相同的缩放定律,并提出使用对比对数似然作为评估指标,并通过大量实验证明,在我们设置下,稠密检索模型的性能遵循与模型大小和注释数量相关的明确的幂律缩放。此外,文章还通过流行的数据增强方法来检验 - 跨语境上下文短语检索
通过利用短语提供的细粒度信息,我们提出了密集检索的新任务形式,即跨语言上下文短语检索,通过使用上下文信息解决多义词问题,实验结果展示了我们方法的有效性。
- COLINGM3:一种用于开域多跳密集句子检索的多任务混合目标学习框架
本文介绍了 M3,一种基于多任务混合目标方法的高级递归多跳密集句检索系统,用于密集文本表示学习,能够有效地解决基于对比学习的检索性能问题,并在大规模开放领域事实验证基准数据集 FEVER 上取得了最先进的性能。
- 面向 LLM 的检索调节器
提出了一种高效的基于大型语言模型的检索调谐器 (LMORT),通过将检索和生成任务从共享的大型语言模型中分离出来,将检索容量与基础语言模型分开,并以非侵入性的方式协调语言模型的统一检索空间,实现了高效和有效的检索,同时保持了生成能力。在六个 - SoftQE: 基于 LLMs 扩展的查询学习表示
将大型语言模型 (Large Language Models, LLMs) 整合到查询编码器中,以提高密集检索的性能,同时避免在推理时对 LLMs 的依赖。通过将输入查询的嵌入映射到 LLM 扩展查询的嵌入,SoftQE 能够在领域内 MS - 通过 LLM-Cognition 数据增强来概括对话式密集检索
通过 LLM - 认知数据增强(ConvAug)的方式,本文提出了一个泛化会话密集检索的框架,生成多级增强会话以捕捉会话上下文的多样性,利用认知感知过程减少误报、漏报和幻觉,通过难度自适应的样本筛选改进模型的学习空间,采用对比学习目标训练更 - 历史感知的对话密集检索
通过上下文消噪的查询重构和根据历史转折的实际影响自动挖掘监督信号,提出了一种历史感知对话稠密检索系统,实验证明了 HAConvDR 在长对话中具有改进的历史建模能力。
- AAAI使用对比性置信度规范化缓解密集检索中的假阴影的影响
通过引入一种新的对比置信度正则化器用于噪声对比估计(NCE)损失,以提高稠密检索模型对于假阴性的鲁棒性,并通过过滤数据集中的噪声负面篇章的方法改进下游稠密检索模型的检索性能。
- 构建更好的基于大型语言模型的稠密检索模型
提出了一种新颖的方法 LLaRA(LLM 适应于密集检索),它作为 LLM 的事后适应工具,用于密集检索应用。LLaRA 包括两个预处理任务:EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归),其中来自 LLM 的文本嵌入用 - 密集检索:我们应该使用什么检索粒度?
密集检索是一种获取相关背景或世界知识的开放领域自然语言处理任务的显著方法,检索单元的选择显著影响检索和下游任务的性能,与传统的段落或句子方法相比,基于命题的检索在密集检索中明显优于传统的检索方法,并通过提供与问题相关的信息来改进下游问答任务 - 以情节检索为抽象语义关联评估
提出了一个名为 Plot Retrieval 的标记数据集来训练和评估信息检索模型在剧情检索任务上的性能,并展示了当前信息检索模型在捕捉文本之间的抽象语义关联方面仍然存在困难。
- 双编码器在极端多标签分类中的效果
通过研究表明,经过正确训练的标准双编码器模型在极限多标签分类问题中可以匹配或超越状态 - of-the-art 极限分类方法在 Precision@1 方面的性能,并且在可训练参数的数量上小 20 倍。
- 增强嵌入用于定制检索
信息检索中的全面检索方法被应用于大型语言模型的前提学习中,这些检索方法早期用于经典应用,但近期多用于异构且严格的应用,需要改进小 K 值的检索。我们提出了一种改进的密集检索方法,通过学习预训练嵌入的低秩残差适应来实现任务特定、异构且严格的检 - CONVERSER:基于合成数据生成的小样本对话稠密检索
使用 CONVERSER 框架,在最多 6 个领域对话示例的情况下,利用大规模语言模型的上下文学习能力为基于对话的密集重排进行训练,实验结果表明所提出的框架在少样本对话密集重排中取得了可比较的性能。
- SIGIR词汇加速的密集检索
LADR 是一种简单而有效的方法,通过利用词法检索技术来提高现有的密集检索模型的效率,同时不影响检索效果,建立了一种新的近似 k 最近邻技术的密集检索效率 - 效果 Pareto 边界。
- 通过软提示调整大型语言模型以辅助密集检索
本论文提出了软提示调整强化密集检索的 SPTAR 模型,并可利用少量的真实数据优化特定的软提示。在实验中,SPTAR 在密集检索任务中获得了比 BM25 和基于 LLMs 的增强方法更优秀的结果。