Syn-QA2: 用合成的 QA 数据集评估长尾问题中的错误假设

Mar, 2024

Syn-QA2: 用合成的 QA 数据集评估长尾问题中的错误假设

Syn-QA2: Evaluating False Assumptions in Long-tail Questions with Synthetic QA Datasets

Ashwin Daswani, Rohan Sawant, Najoung Kim

TL;DR通过评估一系列大型语言模型，我们的研究发现：(1) 问题回答中的错误假设具有挑战性，与以往研究结果相一致；(2) 与生成型问题回答相比，二值检测任务本身更具挑战性，可能是由于问题的语言结构；(3) 长尾问题的检测任务比自然存在的问题更具挑战性，突显了我们的合成数据集和生成方法的实用性。

Abstract

sensitivity to false assumptions (or false premises) in information-seeking questions is critical for robust question-answering (QA) systems. Recent work has shown that false assumptions in naturally occurring questions pose challenges to current models, with low performance on both ge

sensitivity to false assumptions question-answering systems synthetically generated qa datasets long-tail questions detection task

发现论文，激发创造

(QA)$^2$: 带问题假设的问答系统

本文提出了（QA）$^2$（包含有问题上有问题的问题的问题回答）的开放域评估数据集，用于测试有问题上有问题的问题的回答系统。该论文研究问题上有问题的问题，旨在解决现有的 QA 系统不能正确回答该类问题的问题。

Dec, 2022

生成、注释并使用合成数据的管道以用于现实世界中的问答

本文介绍了如何使用合成领域特定数据集来改进问答的性能，通过实验表明使用该方法 fine-tune 下游模型的表现得到了显著的提升。

Nov, 2022

ASQA：事实问题遇见长篇回答

本文提出了一个名为 ASQA 的任务，旨在回答需要深入解释的问题，并提出了一个在 ASQA 上测量表现的可靠度量标准，以及释放了一个新的数据集，用于解决长期问答任务中仍然存在的高质量数据缺乏和答案质量定义模糊的问题。

Apr, 2022

使用合成数据训练问答模型

通过利用大型语言模型，研究了模型大小、预训练模型的质量、合成数据的规模和算法选择等多个因素，缩小了人工和合成问题 - 答案对之间的差距。该研究通过模型生成的数据，在 SQuAD 数据集上实现了良好的准确率，并在 SQuAD2.0 上显示出优于以前的工作的结果。

Feb, 2020

QADYNAMICS：基于动力学训练的零射击常识问答合成诊断

利用 QADYNAMICS 框架，通过分析训练动态，从问题级别和选项级别剔除噪音，改进常识型问答合成的质量并在性能上超过基线模型。

Oct, 2023

长尾知识的自动问答生成

通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题，我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法，并展示了相关的研究挑战。通过预训练语言模型，在我们新生成的长尾问答数据集上进行了详尽实验，比较了其使用维基百科和维基数据知识图等外部资源的性能。

Mar, 2024

领域自适应问答的合成问题价值评估

本文提出了一种新颖的问题价值估计器（QVE），它可以直接估计合成问题对于提高目标领域问答（QA）性能的有用性。通过综合实验，我们发现 QVE 选择的合成问题可以帮助实现比现有技术更好的目标领域 QA 表现，并且通过使用这些问题并仅使用目标领域 15％左右的人类注释，我们可以实现与完全监督基线相当的性能。

Mar, 2022

通过往返一致性生成合成问答语料库

本研究介绍了一种通过结合问答生成和答案提取模型，过滤结果以确保往返一致性的方法生成合成问答语料库，并通过对生成数据的预训练在 SQuAD2 和 NQ 上达到了显著的改进，建立了新的最先进技术的状态。我们的合成数据生成模型，无论是问答生成还是答案提取，都可以通过在 SQuAD2 和 NQ 的可提取子集上微调公开可用的 BERT 模型来完全复制。我们还描述了一种更强大的变体，对于问答生成执行完整的序列到序列预训练，可以在 SQuAD2 上取得与人类表现相差小于 0.1％和 0.4％的完全匹配和 F1 值。

Jun, 2019

基于合成数据训练生成型问答模型

通过使用一种简单且经济高效的方法来合成数据以训练问答系统，本文提供了一种在资源丰富的英语等语言中常用的微调 GPT 模型的培训方法，并提出了一种零样本或少样本情况下使用指导调优模型生成 QA 对的方法，并通过实验比较了从指导调优模型获得 QA 对的各种策略，结果表明，使用我们提出的合成数据训练的模型能够达到与手动策划数据集训练的模型相当的性能，而无需付出人力成本。

Oct, 2023

开放世界的长尾问题回答

本文定义了 OLTQA 模型，它通过在预训练语言模型中挖掘知识和引入 retrieve-then-rerank 框架来支持各种 QA 任务，并提出了适应性的相互知识蒸馏方法联合训练框架和 QA 模型，在 43 个现有 QA 数据集上更好地执行。

May, 2023