模型分析与评估：歧义问题回答

ACLMay, 2023

Model Analysis & Evaluation for Ambiguous Question Answering

Konstantinos Papakostas, Irene Papadopoulou

TL;DR研究 Question Answering 模型回答模糊问题的挑战，探讨模型 / 数据扩展和自动评估指标对模型质量的影响，并研究模型答案的证据根据，旨在提供有关当前方法局限性的宝贵见解。

Abstract

Ambiguous questions are a challenge for question answering models, as they require answers that cover multiple interpretations of the original query. To this end, these models are required to generate long-form answers<

question answering long-form answers model/data scaling automated metrics evidence

发现论文，激发创造

AmbigQA：回答模糊的开放领域问题

本研究介绍了一项新的开放领域问题解答任务 AmbigQA，其中包括找到每个可能的答案，然后为每个答案重写问题以解决歧义问题。我们还构建了 AmbigNQ 数据集，该数据集涵盖了来自 NQ-open 的 14,042 个问题，并发现 NQ-open 中超过一半的问题存在不同源头的歧义，并且我们提出了一种强大的基础模型，表明我们的新任务和数据将支持未来的研究工作。

Apr, 2020

利用生成式证据融合和往返预测解答模糊问题

本文介绍了一种名为 Refuel 的模型，用于回答开放式问题中的多义性及其解决方案，该模型可同时预测多个答案，使用多个来源的证据进行适应性预测，并提出一种名为往返预测的方法，迭代地生成额外的解释用于验证和过滤不正确的答案，最终提供解释模型输出。该模型在 AmbigQA 数据集上实现了新的最先进性能，并在 NQ-Open 和 TriviaQA 上展示了有竞争力的性能。

Nov, 2020

利用包含问题、答案和修订的数据库回答模棱两可的问题

通过利用来自维基百科的明确问题数据库，我们提出了一个新的用于回答含糊问题的最新方法，在含糊问题的多个答案的总结中，我们的方法在回收率指标上提高了 15%（相对改进），在评估从预测输出中消除模糊问题的指标上提高了 10%。从生成的问题数据库检索还可以在多样的篇章检索中取得巨大的改进。

Aug, 2023

有选择性地回答含糊问题

我们从不确定性的角度研究了问答系统，提出一种基于采样的可靠度量方法并发现它在校准答案方面的表现优于模型准确率或自验证方法，这对于回答相对模糊的问题有更明显的改善效果。

May, 2023

在开放域问答中提出澄清问题以处理歧义

提出了一种基于澄清问题的开放领域问答方法，首先使用 InstructGPT 和手动修订生成澄清问题的数据集 CAMBIGNQ，然后设计了一系列任务和合适的评价指标，在模糊性检测和基于澄清问题的问答方面取得了 61.3 F1 和 40.5 F1 的成果。

May, 2023

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015

在意见问答系统中建模歧义、主观性和不同观点

通过考虑个性化和模棱两可性，我们创建了一个包含大约 80 万个问题和 310 万个答案的新问题回答数据集，发现考虑主观答案的个性化因素能够得到定量上更好的答案，并提供更细致的支持性观点。

Oct, 2016

ManyModalQA：多模态输入下的语式消歧和问答

本文提出了一个新的多模态问答挑战 ManyModalQA，在这里代理必须考虑三个不同的模态：文本、图像和表格。我们收集数据的方式是爬取维基百科，并利用众包收集问题 - 答案对。我们的问题是有歧义的，因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器（或消歧器）网络，通过分析该模型，我们研究了问题中指示模态的哪些单词。接下来，我们构建了一个简单的基线 ManyModalQA 模型，该模型基于模态选择器的预测，触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集，只提供一个微调集，在鼓励低资源泛化新任务时，期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距，但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。

Jan, 2020

ASQA：事实问题遇见长篇回答

本文提出了一个名为 ASQA 的任务，旨在回答需要深入解释的问题，并提出了一个在 ASQA 上测量表现的可靠度量标准，以及释放了一个新的数据集，用于解决长期问答任务中仍然存在的高质量数据缺乏和答案质量定义模糊的问题。

Apr, 2022

通过迭代提示回答模棱两可的问题

AmbigPrompt 是一种在回答模糊问题时处理现有方法缺陷的模型，通过将回答模型与提示模型迭代地整合，自适应地追踪阅读过程，逐步触发回答模型来构成不同且相关的答案。此外，作者还开发了一种特定任务的预训练方法，极大提高了该框架的性能，同时比竞争方法使用更少的内存并具有较低的推理延迟。

Jul, 2023