生成还是检索？对医疗开放域问答人工上下文有效性的研究

Mar, 2024

生成还是检索？对医疗开放域问答人工上下文有效性的研究

To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering

Giacomo Frisoni, Alessio Cocchieri, Alex Presepi, Gianluca Moro, Zaiqiao Meng

TL;DRMedGENIE 是医学领域多项选择问题回答的第一个生成 - 然后阅读框架，通过构建人工语境进行生成。该研究表明，在获取更高准确性方面，生成的段落比检索的段落更有效。

Abstract

medical open-domain question answering demands substantial access to specialized knowledge. Recent efforts have sought to decouple knowledge from model parameters, counteracting architectural scaling and allowing for training on common low-resource hardware. The →

medical open-domain question answering knowledge decoupling retrieve-then-read paradigm generate-then-read framework medgenie

发现论文，激发创造

生成而非检索：大型语言模型是强大的上下文生成器

本文提出了一种新的方法 GenRead，它使用大型语言模型生成上下文文档来解决开放领域 QA 等知识密集型任务，并且借助基于聚类的提示方法来选择不同的提示从而提高回收率，实验证明相比于传统的检索 - 阅读模型，这种方法有更高的准确性。

Sep, 2022

利用生成模型结合段落检索进行开放域问答

研究使用生成模型在开放领域问答中的表现，发现利用文本段落检索可以显著提高性能，证明生成模型擅长聚合和组合多个段落的证据，同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。

Jul, 2020

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023

生成 - 检索 - 生成：一种开放领域问答的新方法

通过结合文档检索技术与大型语言模型 (LLM)，我们提出了一种名为 Generator-Retriever-Generator (GRG) 的新方法，通过首先命令模型根据给定的问题生成上下文文档，然后使用双编码器网络从外部语料库中检索与问题相关的文档。将生成的和检索的文档传递给第二个 LLM 模型，生成最终的答案。通过结合文档检索和 LLM 生成，我们的方法解决了开放域问答的挑战，如生成信息丰富且上下文相关的答案。GRG 在 TriviaQA、NQ 和 WebQ 数据集上表现优于最先进的生成 - 阅读和检索 - 阅读流水线 (GENREAD 和 RFiD)，性能至少提高了 + 5.2、+4.2 和 + 1.6。我们提供代码、数据集和检查点。

Jul, 2023

领域专属问答的检索增强生成

为 Adobe 产品建立内部问答系统，提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法，展示了微调检索器在最终生成中带来的重大改进，降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。

Apr, 2024

开放领域问答的增强生成检索

本文提出了一种 Generation-Augmented Retrieval 方法来回答开放领域的问题，这种方法通过发现相关语境并进行文本生成来增强查询，同时证明所生成的语境大大丰富了查询的语义，使用 BM25 稀疏表示与 DPU 等最先进的稠密检索方法相比，GAR 能够获得同等甚至更好的检索效果。本文还将 G.A.R. 与 DPU 相结合，能够在 Natural Questions 和 TriviaQA 数据集上显着提高提取式 QA 基线的性能，并且在使用相同的生成性阅读器时，GAR 频繁地优于其他检索算法。

Sep, 2020

通过向量化上下文改进基于检索的开放领域问答

在大语言模型的时代，应用检索增强生成等技术可以更好地解决开放领域问题回答问题。本文提出了一种通用方便的方法来覆盖更长的上下文，以在开放领域的问答任务中应用。我们的实验证明，在精调后，在两个保留数据集、四个留存数据集和两个上下文学习设置中，性能得到了提高。

Apr, 2024

通过可靠和时间感知的证据检索改善健康问题回答

利用 PubMed 作为可靠的医学研究文档集合，针对开放领域的问答设置，研究通过修改检索设置来提高问答系统性能的方法。结果显示，减少检索到的文档数量，偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。

Apr, 2024

用图引导的多轮检索方法解决面向对话的开放领域问答

本文提出了一种基于图模型和关联反馈的检索方法，用于连续的问答交互中提高检索效率和准确性。实验结果显示，与当前流行的方法相比，该方法大幅提高了问题回答的 F1 得分。

Apr, 2021

检索即生成

我们提出了一种新颖的方法，通过从一系列支持文件中选择上下文相关的短语来生成文本，并使用语言学启发式方法初始化训练阐述，并通过迭代的自我增强来加强训练阐述。实验证明，与标准语言模型相比，我们的模型在各种知识密集型任务上不仅表现出色，而且在开放式文本生成中表现出更高的生成质量。我们的模型在 OpenbookQA 上将准确性从 23.47% 提高到 36.27%，在开放式文本生成中的 MAUVE 得分从 42.61% 提高到 81.58%。值得注意的是，我们的模型在几个检索增强基准中实现了最佳性能和最低延迟。总之，我们断言检索是更准确的生成，并希望我们的工作能够鼓励进一步研究这一新的转变。

Feb, 2024