新闻故事的测验式问题生成
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。
Feb, 2024
本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果,并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展,但最佳模型仅得到了 10 名教师中的 68.4%同意接受的问题,同时也发现需要新的自动度量标准来指导 QGen 研究前进。
May, 2022
本研究提出一种算法,利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式,自动生成自然问题(NQ)数据集中的问题,同时使用神经分类器检测并去除不合法的问题,从而生成高质量的数据集,提高了 QA 表现,该算法在低资源环境下使用,扩展了 QA 系统的规模,同时保持了训练数据的质量。
Oct, 2022
提出了使用深度学习方法和序列学习方法生成阅读理解中多项选择题的解题方法,包括问题生成和干扰项生成。通过多种自然语言处理技术的组合,这些方法可以在未见数据上表现良好。
Mar, 2023
我们设计了一种教育应用的问答生成自动化系统,可以为幼儿园到八年级的阅读材料生成测试学生理解能力的问题与答案对,并在自动评估和人工评估中证明其优于当前先进的问答生成基线系统。同时,我们还在此基础上开始构建一个交互式的故事讲述应用程序,用于未来在教育领域的实际部署。
Sep, 2021
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
本文介绍了一种多语言的问答生成模型 AutoQG 及其 Python 包 lmqg,模型基于预训练的 encoder-decoder 语言模型,在 8 种语言上 fine-tune,并提供了一个 web 界面和易于使用的代码,方便从业者使用和定制。
May, 2023
利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法,利用基于提示的技术生成描述性和推理性问题。我们通过精选的 NCERT 教科书的丰富内容,创建了一个名为 EduProbe 的新的问题生成数据集。我们针对此数据集调查了几种基于提示的问题生成方法,并使用预训练的大型语言模型进行了微调。通过自动评估,我们发现 T5(使用长提示)表现优于其他模型,但仍然低于人类基准。在人类评估标准下,TextDavinci-003 通常在各种提示设置下表现更好。即使在人类评估标准下,问题生成模型也大多低于人类基准。
Dec, 2023
提出了一种新的评估基准用于评估现有的自动生成问题系统的性能,特别是长文本答案下的自动生成问题系统。研究表明,随着答案长度的增加,现有 AQG 方法的性能显著下降,变压器模型在长答案方面的表现优于其他 AQG 方法,但仍存在性能下降的情况,这表明长答案 QA 是未来研究的具有挑战性的基准任务。
Apr, 2020
本文提出一种多选题智能生成系统,利用预训练的语言模型,根据规定的性能指标,通过读取理解语料库来生成语法准确,具有可回答性、多样性和复杂性的问题及选项。
Sep, 2022