利用数据扩充和超生成 - 排序提高阅读理解问题生成
本文提出一种基于神经网络的两阶段机制来生成问题 - 答案对,第一阶段采用 Pointer Networks 编码句子中的关键答案,第二阶段采用序列到序列模型生成问题,最终采用全局注意力和答案编码生成最相关的问题。实验结果表明我们的方法在生成问题的质量上显著优于现有方法,是自动阅读理解评估的又一步。
Mar, 2018
该研究采用基于注意力机制的序列自学习模型进行阅读理解中基于句子的自动问题生成,相比于之前的工作,该模型不依赖于手工规则或复杂的自然语言处理技术,并在人工和自动评估中都呈现出更加自然和困难的问题。
Apr, 2017
本研究提出了一种用于阅读理解的问答生成模型(HTA-WTA),通过使用 story-based 阅读理解技能(SBRCS)来对阅读能力进行更全面的评估,并使用深度推理问题测试了 HTA-WTA 模型的强大性能。
Apr, 2022
本文研究阅读理解数据集中问题难度的难易级别,并提出了一种名为 DQG 的新问题生成设置,用于生成符合指定难度标签的阅读理解问题。我们提出了一个端到端的框架来生成指定难度级别的问题,并制备了第一个具有难度标签的阅读理解问题数据集。结果表明,我们的框架生成的问题不仅在 BLEU 等度量标准上具有更好的质量,而且符合指定的难度标签。
Jul, 2018
本论文提出了一种用于机器阅读理解的数据增广技术,通过自动生成相关无法回答的问题并将其与包含答案的段落相配对,提出了一个序列模型,该模型有效地捕捉了问题和段落之间的交互。实验结果表明,该模型相对于序列到序列基线模型表现更好,同时将自动生成的无法回答的问题作为数据增广的一种方法,可以大幅提高 SQuAD 2.0 数据集上的 F1 值。
Jun, 2019
通过使用同义词替换的方法,该研究提出了一种简单但有效的数据增强方法,以缓解问题生成模型的生成偏差并改善阅读理解模型在低重叠词汇样本上的性能下降问题。
Sep, 2021
通过控制问题的理解类型提高机器阅读理解质量,本文提出了 $ extbf {$ exttt {SkillQG}$}$ 框架。在一个基于技能的层级模式中,根据不同能力的问题,通过迭代调用预训练语言模型来生成针对不同能力问题的精细化评估和提高模型的生成问题。实证结果证明,$ exttt {SkillQG}$ 相对于基准线在质量、相关性和技能控制方面性能更优,在下游问答任务中也有很好的性能提升。
May, 2023
本文提出了一种通过提取无人监督学习的相关特征,利用用户提问答案数据的迭代学习框架,用于通过生成问题的方式来挖掘在线评论中的信息,从而对商品和服务进行评价。实验表明,该框架的有效性以及新任务的有用性。
Nov, 2019
本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果,并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展,但最佳模型仅得到了 10 名教师中的 68.4%同意接受的问题,同时也发现需要新的自动度量标准来指导 QGen 研究前进。
May, 2022