通过可微分奖励模仿学习生成自包含且以概括为中心的问答对

Sep, 2021

通过可微分奖励模仿学习生成自包含且以概括为中心的问答对

Generating Self-Contained and Summary-Centric Question Answer Pairs via Differentiable Reward Imitation Learning

Li Zhou, Kevin Small, Yong Zhang, Sandeep Atluri

TL;DR本文提出了一种通过问答对生成自包含、以摘要为中心的问题和长度受限、文章概括性答案的模型，该模型通过一个新的数据集学习QA生成模型，利用可微分的奖励函数增强QA生成过程以减轻曝光偏差的影响。自动度量和人类评估都表明这些QA交成功能够捕捉文章的重点并实现高准确度的答案。

Abstract

Motivated by suggested question generation in conversational news recommendation systems, we propose a model for generating question-answer pairs (→

发现论文，激发创造

从维基百科抽取段落级问题-答案对

本文提出了一个神经网络的方法，该方法应用核心指代知识来产生覆盖单句以外内容的维基百科相关问题-答案对，并通过对一百万个这些问题-答案对的定性分析表明了该系统的有效性。

May, 2018

解决半监督问答中的语义漂泊问题

本研究提出了一种基于语义加强的奖励机制和基于QA的评估方法，用于解决问题生成中的语义漂移问题，并解决传统评价指标不足的问题，同时提出了两种合成QA对的方法，有效的用于半监督QA学习中。

Sep, 2019

仿人类提问：基于文本语料库的可扩展问答生成

本文提出了一种名为ACS-QG的问题生成系统，使用信息抽取、神经网络生成器和质量控制器自动生成高质量、多样化的问题-答案对，该系统超越了现有神经网络问题生成模型，并能从较少的数据中生成280万个高质量的问题-答案对。

Jan, 2020

通过变分问答对生成提高 QA 模型对挑战集的鲁棒性

通过提出多样性QAG模型，增强训练集连贯性并提高QA模型的鲁棒性，从而提高了在特定问题集中的准确性。

Apr, 2020

保持饥饿，保持专注：在信息搜索对话中生成信息量丰富且具体的问题

本文研究了在信息不对称的对话中生成信息丰富的问题的问题，提出了一种基于启发式思考而非答案预设的提问策略，并使用强化学习算法优化问题的信息丰富程度，并优化问题的特定性，结果表明此策略比其他对比模型更能有效提高提问问题的信息量和特定性。

Apr, 2020

使用双边对比数据进行问题答案对排序的学习

本论文提出一种新颖简单的数据增强策略——Bilateral Generation（BiG），并设计了一个对比训练目标来提高现有标记数据中排名问题答案对的性能，通过使用两个预训练生成模型，即问题生成器和答案生成器，与原始负QA对形成假正QA对来扩充数据集，以及设计对比性训练目标来学习排名问题答案对。实验结果表明，该方法通过充分利用现有标记数据显著提高了排名模型，可轻松应用于不同排名模型。

Jun, 2021

像教育专家一样提问: 自动化生成基于真实考试数据的问答配对

本文介绍了一个针对实际考试数据的新的统一框架，通过自动生成关键词，用多智能体通信模型生成和优化问题和关键词，然后应用模型生成的问题和关键词指导答案生成，从而使问题答案对生成任务取得了显著突破。

Sep, 2021

通过摘要信息生成问题提高无监督问答

本文提出一种基于无监督学习的问句生成方法，使用自由可得的新闻标题数据通过句法分析、命名实体识别和语义角色标注启发式技术转换成合适的问题，然后与原始新闻文章一起训练一个端到端的神经问句生成模型；通过在多项数据集上的实验证明，该方法生成的人工智能数据集用于训练问答模型，其性能远超过基于无监督学习的问答模型的现有成果。

Sep, 2021

VOLTA：可变的 VAE 对抗学习系统的多样化和可控问题-答案生成

本文提出了一种名为VOLTA的模型，它采用变分自编码器框架和共享后骨干网络作为其编码器和解码器，通过添加InfoGAN风格的潜在代码来实现生成多样性和不受输入控制的可控性，实验结果表明，相对于同类模型，VOLTA能够显著提高生成多样性和可控性。

Jul, 2023

NewsQs: 多源信息提问

我们提供了一个名为NewsQs (新闻提示)的数据集，其中提供了多篇新闻文档的问题-回答对。通过在News On the Web语料库的FAQ样式新闻文章上对T5-Large模型进行微调，我们创造了NewsQs，并自动生成了问题。我们证明，使用控制代码对模型进行微调可以生成更容易被人们接受的问题，与没有使用控制代码的相同模型相比，在人类评价中表现更好。我们使用与人类注释具有高相关性的QNLI模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源，用于未来的基于查询的多文档摘要研究。

Feb, 2024