BriefGPT.xyz
Ask
alpha
关键词
primacy bias
搜索结果 - 5
高更新比例下的深度强化学习剖析:克服价值高估和发散
通过对深度强化学习的分析,我们发现在大量梯度更新次数远远超过环境样本数量的情况下,存在一种优先偏见现象,即代理程序过度依赖早期的交互并低估后期经验,从而影响其学习能力。我们发现这种现象的根本挑战在于价值过高估计,这不仅体现在样本外分布数据上
→
PDF
4 months ago
面对扩散模型中的奖励过优化:归纳和初要偏见的视角
通过引入时间感知、激活神经元重置的策略,我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题,实证结果表明其在缓解奖励过度优化方面具有显著的有效性。
PDF
5 months ago
通过复位深度集合代理实现高效且安全的深度强化学习
通过在重置方法中引入深度集成学习,我们提出了一种新的以增强样本利用效率为目标并解决基准重置方法局限性的方法。数值结果表明,该方法在高样本利用效率和安全性方面具有明显效果。
PDF
8 months ago
模型为基础的强化学习中的优先倾向
针对模型驱动的强化学习中的原生偏见问题,提出了一种名为 “世界模型重置” 的方法,并在多个连续控制任务和离散控制任务中验证了该方法的有效性。
PDF
8 months ago
ICML
深度强化学习中的优先偏差
本文研究了深度强化学习算法中的优先性偏差问题,提出了一种简单且通用的机制来解决这个问题,并将其应用于离散和连续动作领域的算法中,从而显著提高了它们的性能。
PDF
2 years ago
Prev
Next