评估问题生成模型的奖励

ACLFeb, 2019

Evaluating Rewards for Question Generation Models

Tom Hosking, Sebastian Riedel

TL;DR该研究采用强化学习方法，使用 policy gradient methods 对质量度量进行直接优化，以解决 Seq2Seq 架构中 exposure bias 导致的错误扩散，从而提高问题生成的质量。同时发现先前被认为是好的指标实际上与人类判断不太相关。

Abstract

Recent approaches to question generation have used modifications to a Seq2Seq architecture inspired by advances in machine translation. Models are trained using teacher forcing to optimise only the one-step-ahead

question generation seq2seq architecture machine translation reinforcement learning policy gradient methods

发现论文，激发创造

探究生成深度问题的问题特定奖励

通过强化学习优化针对问题产生特定目标的奖励，如流畅性、相关性和可回答性，以提高生成问题的质量。优化问题特定的奖励通常会在自动评估指标中表现出更好的性能，但是，仅与人类判断相关的奖励（例如相关性）会在实际问题质量上带来真正的改善。只优化可回答性等其他问题会引入模型的错误偏见，导致质量差的问题。

Nov, 2020

通过文本到文本神经问题生成的机器理解

本文提出了一种基于递归神经网络的模型，可以根据答案生成自然语言问题，并介绍了一种使用监督学习和强化学习相结合的方式对模型进行训练，然后通过策略梯度技术微调模型以最大化几个衡量问题质量的奖励，其中一个奖励是一个问题回答系统的表现，并通过最近的问答数据集 SQuAD 对模型进行了训练和评估。

May, 2017

基于强化学习的图转序列模型用于自然语言问题生成

本篇文章提出了基于强化学习 (Graph2Seq) 模型的问题生成方法，该模型利用双向门控图神经网络作为 encoder 嵌入文章，并混合应用交叉熵损失和 RL 损失来确保生成语法和语义合理的文本。此外，文章还介绍了一种有效的深度对齐网络，将答案信息融合到文章中。该模型的端到端训练在标准 SQuAD 基准测试中取得了明显的最优成绩，超过了现有方法。

Aug, 2019

基于强化学习的图到序列模型的自然问句生成

本文提出了一种基于强化学习的图到序列模型，以生成语法和语义正确的自然问题，并取得了 SQuAD 数据集上大幅领先于之前最先进的方法的效果。

Oct, 2019

从人类反馈中学习摘要

通过使用强化学习优化模型的奖励函数来预测人类偏好总结，本文展示了可显著提高总结质量的可能性，并在 TL;DR 数据集上取得了显著的优势。

Sep, 2020

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

测验设计任务：帮助教师使用自动化题目生成器创建测验

本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果，并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展，但最佳模型仅得到了 10 名教师中的 68.4％同意接受的问题，同时也发现需要新的自动度量标准来指导 QGen 研究前进。

May, 2022

基于统一查询的生成模型，用于问题生成和问题回答

我们提出了一种基于查询的生成模型，用于解决问题生成和问题回答两个任务，在查询理解方面，该模型使用经典的编码器 - 解码器框架，通过与多个角度的文章进行匹配来执行查询理解。在进行培训时，我们利用政策梯度强化学习算法来克服暴露偏差，这是由于交叉熵损失的序列学习而引起的主要问题。

Sep, 2017

将马放在车前：一种从文本生成问题的生成器 - 评估框架

采用新颖的生成 - 评估框架，结合结构和语义优化自动生成问题，采用生成器和评估器模型，引入复制和覆盖机制，提出两个新的针对 QG 特定的奖励函数，综合利用 BLEU，GLEU 和 ROUGE-L 等评价指标，在 SQuAD 基准测试上，相较于最先进的系统，自动和人工评估都表现出更好的性能。

Aug, 2018

利用人类反馈改进机器翻译：基于质量估计的奖励模型探索

在这项研究中，我们调查了采用质量估计 (QE) 模型作为奖励模型 (基于 QE 的奖励模型) 以预测人类偏好用于反馈训练的潜力，并解决了过优化问题以及错误传播问题。通过准确检测出错误翻译并对其进行罚分，我们提出了一种简单而有效的方法。实验结果显示，利用基于 QE 的反馈训练可以在各种情况下实现持续且显著的改进，通过人类偏好研究得到了进一步验证。我们的进一步分析表明，基于 QE 的反馈训练具有高效的数据利用率：利用少量单语数据的方法可以胜过使用更大平行语料库的系统。

Jan, 2024