ICLRApr, 2020

文本生成的残留能量模型

TL;DR本文探讨了基于序列级别的未标准化的能量模型应用于文本生成,通过在预训练的局部标准化语言模型的残差范围内工作,结合噪声对比估计来训练,同时利用 BERT 和 RoBERTa 等预先训练的双向上下文表示,结果表明在二个大型语言建模数据集上,残差 EBM 相对于局部标准化基线具有更低的困惑度,并且通过重要性抽样生成的效率比基线模型更高,并且在人类评估中具有更高的生成质量。