ACLMay, 2023
MixCE: 通过混合正向和反向交叉熵训练自回归语言模型
MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies
Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal...
TL;DR本文提出使用 MixCE 目标函数来学习自回归语言模型,该目标函数结合了前向交叉熵和反向交叉熵,以更好地生成类人文本。实验表明,在合成数据和真实数据上,使用 MixCE 训练的模型生成的文本比使用传统方法更好。