ACLMar, 2024

基于令牌级反馈的强化学习可控文本生成

TL;DR提出了一种名为 TOLE 的新颖强化学习算法,用于控制大型语言模型的生成,并在单属性和多属性控制任务上取得了优异的性能。