ICLROct, 2023

奖励模型合集有助于缓解过度优化

TL;DR使用集合基的保守优化目标,能够在强化学习中有效抑制频繁优化,提高性能。