Aug, 2023

从大型语言模型中学习序列生成的评估模型

TL;DR我们提出了 ECT(evaluation capability transfer)方法,通过从 ChatGPT 中学习评价模型,并将其作为奖励模型应用于强化学习和重新排序方法中,以改善序列生成模型。在机器翻译、文本风格转换和摘要任务上的实验结果证明了 ECT 的有效性。