新闻故事的测验式问题生成

Feb, 2021

Quiz-Style Question Generation for News Stories

Adam D. Lelkes, Vinh Q. Tran, Cong Yu

TL;DR本研究通过建立一套问答生成模型，实现了对在线新闻读者对新闻信息的认知度的度量，并通过实验证明该模型在多项指标上具有优越的性能。

Abstract

A large majority of American adults get at least some of their news from the Internet. Even though many online news products have the goal of informing their users about the news, they lack scalable and reliable tools for measuring how well they are achieving this goal, and therefore h

online news news informedness multiple-choice questions transformer models newsquizqa

发现论文，激发创造

NewsQs: 多源信息提问

我们提供了一个名为 NewsQs (新闻提示) 的数据集，其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调，我们创造了 NewsQs，并自动生成了问题。我们证明，使用控制代码对模型进行微调可以生成更容易被人们接受的问题，与没有使用控制代码的相同模型相比，在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源，用于未来的基于查询的多文档摘要研究。

Feb, 2024

测验设计任务：帮助教师使用自动化题目生成器创建测验

本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果，并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展，但最佳模型仅得到了 10 名教师中的 68.4％同意接受的问题，同时也发现需要新的自动度量标准来指导 QGen 研究前进。

May, 2022

利用生成 NQ 类问题来改进问答

本研究提出一种算法，利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式，自动生成自然问题（NQ）数据集中的问题，同时使用神经分类器检测并去除不合法的问题，从而生成高质量的数据集，提高了 QA 表现，该算法在低资源环境下使用，扩展了 QA 系统的规模，同时保持了训练数据的质量。

Oct, 2022

自动生成多项选择题

提出了使用深度学习方法和序列学习方法生成阅读理解中多项选择题的解题方法，包括问题生成和干扰项生成。通过多种自然语言处理技术的组合，这些方法可以在未见数据上表现良好。

Mar, 2023

AI 向人类提问：儿童故事书问答生成

我们设计了一种教育应用的问答生成自动化系统，可以为幼儿园到八年级的阅读材料生成测试学生理解能力的问题与答案对，并在自动评估和人工评估中证明其优于当前先进的问答生成基线系统。同时，我们还在此基础上开始构建一个交互式的故事讲述应用程序，用于未来在教育领域的实际部署。

Sep, 2021

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

多语言问答生成的实用工具包

本文介绍了一种多语言的问答生成模型 AutoQG 及其 Python 包 lmqg，模型基于预训练的 encoder-decoder 语言模型，在 8 种语言上 fine-tune，并提供了一个 web 界面和易于使用的代码，方便从业者使用和定制。

May, 2023

利用基于提示的技术来生成学校级问题的大型语言模型的力量

利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法，利用基于提示的技术生成描述性和推理性问题。我们通过精选的 NCERT 教科书的丰富内容，创建了一个名为 EduProbe 的新的问题生成数据集。我们针对此数据集调查了几种基于提示的问题生成方法，并使用预训练的大型语言模型进行了微调。通过自动评估，我们发现 T5（使用长提示）表现优于其他模型，但仍然低于人类基准。在人类评估标准下，TextDavinci-003 通常在各种提示设置下表现更好。即使在人类评估标准下，问题生成模型也大多低于人类基准。

Dec, 2023

自动从长答案生成问题的研究

提出了一种新的评估基准用于评估现有的自动生成问题系统的性能，特别是长文本答案下的自动生成问题系统。研究表明，随着答案长度的增加，现有 AQG 方法的性能显著下降，变压器模型在长答案方面的表现优于其他 AQG 方法，但仍存在性能下降的情况，这表明长答案 QA 是未来研究的具有挑战性的基准任务。

Apr, 2020

多项选择题生成：面向自动化评估框架的发展

本文提出一种多选题智能生成系统，利用预训练的语言模型，根据规定的性能指标，通过读取理解语料库来生成语法准确，具有可回答性、多样性和复杂性的问题及选项。

Sep, 2022