ACLJan, 2021

隐式不可能性训练:利用强化学习提升神经文本生成

TL;DR本文提出在语言模型中使用策略梯度强化学习进行微调,以直接优化更好的文本生成,将这种方法应用于最小化生成文本中的重复,并展示了当与 unlikelihood training 相结合时,我们的方法进一步减少了重复而未影响语言模型质量。此外,我们还评估了其他方法来改进训练和解码时间,并使用各种度量标准来比较它们,以达到更好的文本生成输出的控制。