模型分析与评估:歧义问题回答
本研究介绍了一项新的开放领域问题解答任务 AmbigQA,其中包括找到每个可能的答案,然后为每个答案重写问题以解决歧义问题。我们还构建了 AmbigNQ 数据集,该数据集涵盖了来自 NQ-open 的 14,042 个问题,并发现 NQ-open 中超过一半的问题存在不同源头的歧义,并且我们提出了一种强大的基础模型,表明我们的新任务和数据将支持未来的研究工作。
Apr, 2020
本文介绍了一种名为 Refuel 的模型,用于回答开放式问题中的多义性及其解决方案,该模型可同时预测多个答案,使用多个来源的证据进行适应性预测,并提出一种名为往返预测的方法,迭代地生成额外的解释用于验证和过滤不正确的答案,最终提供解释模型输出。该模型在 AmbigQA 数据集上实现了新的最先进性能,并在 NQ-Open 和 TriviaQA 上展示了有竞争力的性能。
Nov, 2020
通过利用来自维基百科的明确问题数据库,我们提出了一个新的用于回答含糊问题的最新方法,在含糊问题的多个答案的总结中,我们的方法在回收率指标上提高了 15%(相对改进),在评估从预测输出中消除模糊问题的指标上提高了 10%。从生成的问题数据库检索还可以在多样的篇章检索中取得巨大的改进。
Aug, 2023
我们从不确定性的角度研究了问答系统,提出一种基于采样的可靠度量方法并发现它在校准答案方面的表现优于模型准确率或自验证方法,这对于回答相对模糊的问题有更明显的改善效果。
May, 2023
提出了一种基于澄清问题的开放领域问答方法,首先使用 InstructGPT 和手动修订生成澄清问题的数据集 CAMBIGNQ,然后设计了一系列任务和合适的评价指标,在模糊性检测和基于澄清问题的问答方面取得了 61.3 F1 和 40.5 F1 的成果。
May, 2023
本研究旨在通过新的模型和数据集解决基于图像的问答问题,使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案,提出了一种将图片描述转化为问答格式的问题生成算法,为新的数据集提供了基线结果。
May, 2015
通过考虑个性化和模棱两可性,我们创建了一个包含大约 80 万个问题和 310 万个答案的新问题回答数据集,发现考虑主观答案的个性化因素能够得到定量上更好的答案,并提供更细致的支持性观点。
Oct, 2016
本文提出了一个新的多模态问答挑战 ManyModalQA,在这里代理必须考虑三个不同的模态:文本、图像和表格。我们收集数据的方式是爬取维基百科,并利用众包收集问题 - 答案对。我们的问题是有歧义的,因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器(或消歧器)网络,通过分析该模型,我们研究了问题中指示模态的哪些单词。接下来,我们构建了一个简单的基线 ManyModalQA 模型,该模型基于模态选择器的预测,触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集,只提供一个微调集,在鼓励低资源泛化新任务时,期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距,但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。
Jan, 2020
本文提出了一个名为 ASQA 的任务,旨在回答需要深入解释的问题,并提出了一个在 ASQA 上测量表现的可靠度量标准,以及释放了一个新的数据集,用于解决长期问答任务中仍然存在的高质量数据缺乏和答案质量定义模糊的问题。
Apr, 2022
AmbigPrompt 是一种在回答模糊问题时处理现有方法缺陷的模型,通过将回答模型与提示模型迭代地整合,自适应地追踪阅读过程,逐步触发回答模型来构成不同且相关的答案。此外,作者还开发了一种特定任务的预训练方法,极大提高了该框架的性能,同时比竞争方法使用更少的内存并具有较低的推理延迟。
Jul, 2023