领域定向合成问题生成进行零样本神经网络段落检索

Apr, 2020

领域定向合成问题生成进行零样本神经网络段落检索

Zero-shot Neural Passage Retrieval via Domain-targeted Synthetic Question Generation

Ji Ma, Ivan Korotkov, Yinfei Yang, Keith Hall, Ryan McDonald

TL;DR通过合成问题生成技术缩小了零样本训练模型与基于术语技术模型之间的差距，提高了针对特定领域的文档的检索效果。

Abstract

A major obstacle to the wide-spread adoption of neural retrieval models is that they require large supervised training sets to surpass traditional term-based techniques, which are constructed from raw corpora. In

neural retrieval models supervised training sets passage retrieval synthetic question generation domain-specific

发现论文，激发创造

利用零样本问题生成技术提升段落检索效果

本文提出一种简单有效的重新排序方法，利用预训练语言模型计算与检索的段落之间的关联度，从而提高开放式问题回答中的检索效果，并在多个数据集上进行了评估和实验，使得无监督和有监督的模型的检索准确率分别提高了 6-18% 和 12%。

Apr, 2022

基于嵌入的零样本检索通过查询生成

本文通过采用两塔架构来建立神经检索模型，并提出了一种新的用于检索的合成数据生成方法，显著优于基于词汇匹配算法的 BM25，并在 5 个测试数据集中平均提高 Recall@1 指标 2.45 个点。

Sep, 2020

利用生成模型结合段落检索进行开放域问答

研究使用生成模型在开放领域问答中的表现，发现利用文本段落检索可以显著提高性能，证明生成模型擅长聚合和组合多个段落的证据，同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。

Jul, 2020

面向开放检索问答的合成目标领域监督

本研究针对新的神经通道检索方法加以探讨，发现在 COVID-19 的封闭和专业目标域中，SOTA 模型 Dense Passage Retriever 比标准 BM25 差距较大。通过用文本生成器来生成合成训练示例对其进行微调，使其在对外域数据处理中更具鲁棒性，效果有所提高。最终，BM25 与改进的 DPR 模型的集成产生了最佳结果，进一步推动了开放式检索 QA 的 SOTA，适用于多个出域测试集。

Apr, 2022

跨语言阅读理解的零样本多语言合成问答生成

使用单一生成模型在大规模上生成多语言问题和答案对，通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现，并在各种语言的 XQuAD 数据集上实现了较大的性能提升。

Oct, 2020

零样本槽位填充的强健检索增强生成

本文提出了一种使用 hard negatives 和强健的训练程序增强检索生成模型而进行零样本槽填充的新方法，该方法在 T-REx 和 zsRE 槽填充数据集上都有较大的改进，并在 KILT 排行榜上排名首位。此外，通过零 / 少样本学习的组合，我们在 TACRED 数据集的新变体上演示了我们系统的适应能力，并发布了源代码和预训练模型。

Aug, 2021

基于知识驱动的数据构建在常识问答中的零样本评估

本文提出了一种基于神经符号框架的零样本问题回答方法，利用预训练模型的外部知识资源，获得了在不同任务中的一致性提升，并且在任务结构保持的同时还生成了公平和信息丰富的问题，从而提高了语言模型的学习效果。

Nov, 2020

神经信息检索的无监督领域自适应

比较了使用大型语言模型生成查询和基于规则的方法进行合成注释来进行神经信息检索，结果表明大型语言模型在所有情景中的性能优于基于规则的方法，而无监督领域适应相对于零样本方式应用监督信息检索系统是有效的。

Oct, 2023

利用合成预训练构建稳健的神经检索模型

研究表明，机器阅读理解数据集可以用于训练高性能的神经信息检索系统，利用序列到序列生成器生成的合成样本的预训练可以提高神经信息检索系统的鲁棒性和检索表现。

Apr, 2021

零样本检索：用搜索引擎增强预训练模型

使用 NLP 和多模式学习，该论文介绍了如何通过搜索引擎检索来增强预训练模型，从而在测试时从互联网中检索到有用的数据，并更新模型以解决模型的不确定性，取得了零样本性能的显著改进。

Nov, 2023