ACLFeb, 2019

评估问题生成模型的奖励

TL;DR该研究采用强化学习方法,使用 policy gradient methods 对质量度量进行直接优化,以解决 Seq2Seq 架构中 exposure bias 导致的错误扩散,从而提高问题生成的质量。同时发现先前被认为是好的指标实际上与人类判断不太相关。