基于新闻文章的开放性问题生成的一致性
探索生成通常由多个句子回答的开放性问题的任务,定义一个新的问题类型本体论、提出了一种新颖的基于问题类型感知的问题生成框架并使用语义图形表示,进一步利用示例和自动生成的模板来提高可控性和多样性。在两个新收集的大规模数据集上进行实验,表明我们的模型在自动评估指标上改善了问题质量。最后,我们的模型变体可以产生具有增强的可控性和多样性的问题。
Jul, 2021
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。
Feb, 2024
我们引入一个称为 “实体中心问题生成”(ECQG)的新任务,旨在从实体的角度生成问题。为了解决 ECQG,我们提出了一个连贯的基于 PLM 的框架 GenCONE,其中包含两个新颖的模块:内容聚焦和问题验证。我们还构建了一个大规模的开放领域数据集,以支持这个任务。我们的大量实验证明,GenCONE 在生成高质量问题方面显著且一致地优于各种基线方法,而两个模块在此过程中是有效且互补的。
Oct, 2023
介绍了 INQUISITIVE 数据集,该数据集包含~19,000 个问题,是读者在阅读文档时 elicited 的。与现有数据集相比,INQUISITIVE 的问题更加注重文本的高层(语义和话语)理解,并根据基于 GPT-2 的问题生成模型评估了该任务的挑战性,强调了上下文对生成 INQUISITIVE 问题的重要性。
Oct, 2020
本文提出了一种名为 ACS-QG 的问题生成系统,使用信息抽取、神经网络生成器和质量控制器自动生成高质量、多样化的问题 - 答案对,该系统超越了现有神经网络问题生成模型,并能从较少的数据中生成 280 万个高质量的问题 - 答案对。
Jan, 2020
本文提出了一种新的方法合成用于 CQA 的数据,其中包括开放式,封闭式和无法回答的问题,通过为每种问题类型设计不同的生成流程并将它们有效地结合在单个共享框架中,同时设计了分层回答分类模块,提高了合成数据的质量,手动检查发现我们的框架生成的合成数据具有非常类似于人类生成的对话的特征,在四个领域中,使用我们的合成数据训练的 CQA 系统的表现确实接近于使用人工注释数据训练的系统。
Oct, 2022
本研究提出了一种基于神经编码器 - 解码器模型的自动问题生成方法,可以根据给定的段落生成多样化、有意义的问题并利用 SQuAD 数据集进行了初步实验研究,实验结果显示该方法可以产生流畅且多样化的问题。
Apr, 2017
本文介绍了我们使用传统语言学方法和多种机器学习技术生成英语非结构化文本问句的框架,并且加入了问题评估模块,最终证明我们的生成问题质量优于其他最好的系统,并且与人类创建的问题相当。
May, 2022
该研究采用基于注意力机制的序列自学习模型进行阅读理解中基于句子的自动问题生成,相比于之前的工作,该模型不依赖于手工规则或复杂的自然语言处理技术,并在人工和自动评估中都呈现出更加自然和困难的问题。
Apr, 2017