Jan, 2024

DRLC:来自 LLM 批评者的强化学习与稠密奖励

TL;DR通过引入批评语言模型的框架,利用密集奖励对强化学习中的稀疏奖励进行补偿,本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性,实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提升性能,并且在同一模型作为策略模型和批评模型的设定下,还能提高学习效率。