BriefGPT.xyz
Ask
alpha
关键词
adversarial policy optimization
搜索结果 - 2
通过轻量级不确定性估计的对抗策略优化克服奖励过度优化
引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法,通过对奖励模型的不确定性进行量化,并通过分布鲁棒优化处理奖励模型的置信区间,从而增强性能。
PDF
4 months ago
深度强化学习中的对抗策略优化
本文提出了一种新的强化学习算法 APO,该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法 APO 在
→
PDF
a year ago
Prev
Next