Jun, 2024

缓解奖励过度优化的可扩展集成方法

TL;DR使用共享编码器但独立的线性头部,以减小存储和训练时间开销,解决了语言模型在强化学习中的过度优化问题。