InPars: 使用大型语言模型的信息检索数据增强
比较了使用大型语言模型生成查询和基于规则的方法进行合成注释来进行神经信息检索,结果表明大型语言模型在所有情景中的性能优于基于规则的方法,而无监督领域适应相对于零样本方式应用监督信息检索系统是有效的。
Oct, 2023
通过使用开源的大型语言模型和现有强大的重排序器,InPars-v2 提出了一种用于生成训练数据的合成查询 - 文档对的数据集生成器,并通过简单的 BM25 检索管道和使用 InPars-v2 数据微调的 monoT5 重排序器,取得了 BEIR 基准测试的最新最优结果。
Jan, 2023
通过在 65 百万个合成问题和 2 亿个来自 Reddit 对话的帖子对大型 bi-encoder 模型进行适当的预训练,可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。
Jul, 2021
研究表明,机器阅读理解数据集可以用于训练高性能的神经信息检索系统,利用序列到序列生成器生成的合成样本的预训练可以提高神经信息检索系统的鲁棒性和检索表现。
Apr, 2021
通过使用大型语言模型 (LLMs) 生成大量合成的查询,可以在不使用大量标记的数据的情况下,有效地优化实现信息检索任务,同时消除因为领域的转变而导致真实世界应用效力降低的问题。
Mar, 2023
通过使用 SWIM-IR 合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。
Nov, 2023
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
使用 NLP 和多模式学习,该论文介绍了如何通过搜索引擎检索来增强预训练模型,从而在测试时从互联网中检索到有用的数据,并更新模型以解决模型的不确定性,取得了零样本性能的显著改进。
Nov, 2023
我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法,并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。
Aug, 2023
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验,最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明,使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。
May, 2023