开放领域问答中的负面背景

EMNLPOct, 2023

Detrimental Contexts in Open-Domain Question Answering

Philhoon Oh, James Thorne

TL;DR通过筛选句子，可以提高模型准确率并优化 NLP 任务中的问答体系结构。

Abstract

For knowledge intensive nlp tasks, it has been widely accepted that accessing more information is a contributing factor to improvements in the model's end-to-end performance. However, counter-intuitively, too much context can have a negative impact on the model when evaluated on common

nlp question answering retrieve-then-read architectures passage filtering model accuracy

发现论文，激发创造

利用生成模型结合段落检索进行开放域问答

研究使用生成模型在开放领域问答中的表现，发现利用文本段落检索可以显著提高性能，证明生成模型擅长聚合和组合多个段落的证据，同时在 Natural Questions 和 TriviaQA 开放式基准测试中取得最好的结果。

Jul, 2020

问答中的知识语料错误

通过使用大型语言模型对人类注释的黄金上下文进行改写，我们发现传统的问答系统在知识库错误方面存在缺陷，而改写后的文本在性能上有 10% 至 13% 的提高。

Oct, 2023

更好的检索并不一定会导致更好的问答

本文针对欧洲议会选举的数据进行建模，提出了一种基于随机森林和多层感知器神经网络相结合的方法，去完成对选民意向的预测任务，该模型相比其他模型具有更好的预测准确度和稳定性。

May, 2022

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

开放领域问答中对抗注入攻击的防御

本研究提出了一种新的方法 —— 查询增强方法，结合一种新的置信度方法 CAR 来寻找多个可以回答原始问题的检索段落，并将它们整合到模型中，以对抗数据污染并提高 5%-20% 精确匹配度。

Dec, 2022

口语问答中语音识别误差对文本检索的影响

研究了语音接口与问答系统交互过程中的问题，使用数据增强技术来探究自然语音识别噪音对信息检索的影响。结果表明，自然语音识别噪音会对信息检索产生负面影响，提出使用数据增强来解决这个问题。

Sep, 2022

基于知识引导的开放领域问答中的文本检索和阅读

本研究提出了一种基于知识库和相关文章文本联合的开放领域问答方法，通过检索和阅读一个包含文本段的图表结构，并采用跨相关段落传播信息的方式更新文本段落表示，从而在 WebQuestions、自然问题和 TriviaQA 三个任务的数据集上实现了 2-11% 的性能提升。

Nov, 2019

训练融合解码器中的上下文质量对于开放领域问答的重要性

本研究探讨了上下文数量和质量对基于检索增强生成模型的训练性能的影响，并提出了一种通过引入偏差来缓解对特定上下文质量过拟合的方法，能够有效提高该模型在不同上下文质量下的表现。

Mar, 2024

生物医学问答中的前 K 个相关片段检索

我们在临床领域中通过对现有 DPR 框架的改进，从可靠的 Pubmed 文章中检索答案，使其在 BioASQ QA 数据集上的评估结果为 0.81 的 F1 得分。

Aug, 2023

用图引导的多轮检索方法解决面向对话的开放领域问答

本文提出了一种基于图模型和关联反馈的检索方法，用于连续的问答交互中提高检索效率和准确性。实验结果显示，与当前流行的方法相比，该方法大幅提高了问题回答的 F1 得分。

Apr, 2021