InPars: 使用大型语言模型的信息检索数据增强

Feb, 2022

InPars: 使用大型语言模型的信息检索数据增强

InPars: Data Augmentation for Information Retrieval using Large Language Models

Luiz Bonifacio, Hugo Abonizio, Marzieh Fadaee, Rodrigo Nogueira

TL;DR利用大型预训练语言模型作为综合数据生成器，对于信息检索任务的未监督数据的微调，可以使检索器在零样本学习和有监督学习的任务中获得更好的表现

Abstract

The information retrieval community has recently witnessed a revolution due to large pretrained transformer models. Another key ingredient for this revolution was the →

information retrieval transformer models ms marco dataset synthetic data generators zero-shot transfer learning

发现论文，激发创造

神经信息检索的无监督领域自适应

比较了使用大型语言模型生成查询和基于规则的方法进行合成注释来进行神经信息检索，结果表明大型语言模型在所有情景中的性能优于基于规则的方法，而无监督领域适应相对于零样本方式应用监督信息检索系统是有效的。

Oct, 2023

InPars-v2: 信息检索高效数据集生成器的大型语言模型

通过使用开源的大型语言模型和现有强大的重排序器，InPars-v2 提出了一种用于生成训练数据的合成查询 - 文档对的数据集生成器，并通过简单的 BM25 检索管道和使用 InPars-v2 数据微调的 monoT5 重排序器，取得了 BEIR 基准测试的最新最优结果。

Jan, 2023

领域匹配的密集检索预训练任务

通过在 65 百万个合成问题和 2 亿个来自 Reddit 对话的帖子对大型 bi-encoder 模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

利用合成预训练构建稳健的神经检索模型

研究表明，机器阅读理解数据集可以用于训练高性能的神经信息检索系统，利用序列到序列生成器生成的合成样本的预训练可以提高神经信息检索系统的鲁棒性和检索表现。

Apr, 2021

UDAPDR：基于 LLM 加速的无监督域自适应及 Reranker 蒸馏方法

通过使用大型语言模型 (LLMs) 生成大量合成的查询，可以在不使用大量标记的数据的情况下，有效地优化实现信息检索任务，同时消除因为领域的转变而导致真实世界应用效力降低的问题。

Mar, 2023

在多语言多层次检索中，利用 LLMs 合成训练数据

通过使用 SWIM-IR 合成训练数据集，我们研究了多语言密集检索模型的能力，并在三个检索基准上对其进行了全面评估，发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。

Nov, 2023

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

零样本检索：用搜索引擎增强预训练模型

使用 NLP 和多模式学习，该论文介绍了如何通过搜索引擎检索来增强预训练模型，从而在测试时从互联网中检索到有用的数据，并更新模型以解决模型的不确定性，取得了零样本性能的显著改进。

Nov, 2023

教小型语言模型如何推广到未见过的组合问题

我们在本文中提出了一种通过多任务监督预训练和密集检索系统的组合来实现对具有挑战性的复合问题的泛化的方法，并且展示了通过添加用于训练的检索增强数据集可以显著提高模型的性能。

Aug, 2023

通过人工混合数据训练来提升零样本跨语言检索

本研究探讨了如何将零 - shot 模型从高资源语言（一般是英语）迁移到其他语言，结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此，我们提出利用双语词典生成人工混合语言的数据来训练排名模型，我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验，最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明，使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。

May, 2023