Jan, 2024

通过细粒度强化学习和最小编辑约束改进大型语言模型

TL;DR用新的 RL 方法 RLMEC,结合生成模型作为奖励模型,通过编写最小错误重写任务的错误解决方案,为 RL 训练产生基于令牌级的奖励,同时设计了基于令牌级的 RL 目标和基于模仿的正则化,以减少其他不重要令牌的影响,并证明了该方法在数学任务和问答任务中的有效性。