Mar, 2024

通过轻量级不确定性估计的对抗策略优化克服奖励过度优化

TL;DR引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法,通过对奖励模型的不确定性进行量化,并通过分布鲁棒优化处理奖励模型的置信区间,从而增强性能。