Jun, 2023

SequenceMatch: 带回溯的自回归序列模型的模仿学习

TL;DR研究提出了一个名为 SequenceMatch 的方法,将序列生成问题转化成了一种模仿学习问题,并采用回溯策略和特定的训练目标以优化文本生成过程中的错误,经实验证明,该方法在语言模型的文本生成任务中比 MLE 更加优秀。