Oct, 2024

MA-RLHF:通过宏操作从人类反馈进行强化学习

TL;DR本研究解决了现有基于人类反馈的强化学习在长序列中的信用分配问题,导致学习效率低下。提出的MA-RLHF框架引入宏操作,显著减少了操作与奖励之间的时间距离,从而提升了学习效率和政策梯度的稳定性。本方法在文本摘要、对话生成等任务中表现优异,相较传统方法性能提升达30%,训练速度提高至1.7倍甚至2倍。