该研究提出了一种称为 query2doc 的简单而有效的查询扩展方法,通过利用大型语言模型生成伪文档并将其扩展到查询中,从而提高了信息检索系统在 ad-hoc IR 数据集上的性能,如 MS-MARCO 和 TREC DL。
Mar, 2023
本研究提出了一种基于大型语言模型的互相验证框架,用于查询扩展,通过检索和生成的文件相互补充来改善查询扩展的效果,并在三个信息检索数据集上进行了大量实验证实,结果显示我们的方法明显优于其他对照组。
Oct, 2023
本文提出一种简单而有效的预训练方法 SimLM,用于针对稠密段落检索,其使用简单的瓶颈架构通过自监督预训练学习将段落信息压缩成一种密集向量,并使用替换的语言建模目标,该目标灵感来自 ELECTRA,以提高样本效率并减少预训练和微调之间输入分布的差异。SimLM 只需要访问未标记的语料库,在没有标记数据或查询时更普遍适用。在多个大规模段落检索数据集上进行实验证明,在多种设置下,SimLM 都比强基线实现了实质性的改进。显著的是,SimLM 甚至胜过了多向量方法,如 ColBERTv2,这需要更高的存储成本。
Jul, 2022
通过预先训练模型的嵌入,精心选择数据可加速训练并提高自然语言处理任务的下游准确性,进而对语言模型的预训练方法和性能产生质疑,并展示了在超大规模模型上持续改进模型的可能路径。
Aug, 2023
LLM 预训练模型通过精心选择文档,可以在仅使用部分 FLOPs 的情况下实现与完整训练相当的模型质量;通过使用提示的 LLM 作为文档评分器,我们将质量标签提取并应用于大规模的互联网抓取数据集,以自动筛除部分文档,从而更好地匹配性能,并通过在上下文中学习来提高标签模型的性能。
Jun, 2024
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个 LLM 增强的检索框架,我们显著提高了广泛使用的检索模型(如 Bi-encoders 和 late-interaction models)的效果,并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。
Apr, 2024
本文提出了 coCondenser 方法,将 Condenser 预训练架构与无监督语料级对比损失相结合,减轻了密集检索器对大规模训练数据和数据工程的依赖,并通过实验表明,该方法具有与 RocketQA 相当的性能。
Aug, 2021
使用大型语言模型进行查询或文档扩展可以提高信息检索的泛化能力,但是否普遍有益或仅在特定环境下有效仍不清楚。本研究通过第一次全面分析基于语言模型的扩展,发现存在查找模型表现与扩展收益之间的强负相关性。我们的结果建议:对于较弱的模型或目标数据集与训练语料库在格式上存在显著差异的情况下,使用扩展;否则,避免扩展以保持相关性信号清晰。
Sep, 2023
本文研究了利用大型语言模型(LLMs)预训练阶段存储的参数化知识,独立地从任意起始位置检索参考段落的方法,并提出了一个模拟人类检索易被遗忘参考的两阶段框架。实验证明,LLMs 能够独立检索各种任务形式中的参考段落位置,并且获取的参考对下游任务产生了显著帮助。
Feb, 2024
通过在主动学习循环中使用预训练的大型语言模型的表示,然后在获得所需标记数据后,对这些数据进行微调,从而以较低的计算成本实现与将完全微调的模型相似的性能。