Oct, 2023

通过约束强化学习高斯过程避免奖励模型过度优化

TL;DR使用约束强化学习方法解决复合奖励模型中过度优化问题,并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。