Sep, 2022

GROOT:用于生成序列标记的纠正奖励优化

TL;DR提出了一种名为 GROOT 的生成式奖励优化文本序列框架,通过对迭代生成的预测候选项进行错误校对和对比(基于其奖励值),将生成式序列标注模型的解码器输出分布与(黑盒)奖励函数的分布进行匹配,从而在四种公共基准测试中显着提高了所有奖励度量;此外,GROOT 还通过顶部 - k 候选项的质量提高证明了整体解码器分布的提高。