深度强化学习中的优先偏差
通过对深度强化学习的分析,我们发现在大量梯度更新次数远远超过环境样本数量的情况下,存在一种优先偏见现象,即代理程序过度依赖早期的交互并低估后期经验,从而影响其学习能力。我们发现这种现象的根本挑战在于价值过高估计,这不仅体现在样本外分布数据上,也表现在样本内分布数据上,并可追溯到由优化器动量推动的未知动作预测。我们采用了一种简单的单位球归一化方法,使得在大量梯度更新比例下学习变得可行,并在广泛使用的 dm_control 套件上取得了强大的性能,在具有挑战性的 dog 任务上与基于模型的方法相媲美。我们的结果对于早期数据过拟合导致学习不佳的先前解释提出了部分质疑。
Mar, 2024
通过在重置方法中引入深度集成学习,我们提出了一种新的以增强样本利用效率为目标并解决基准重置方法局限性的方法。数值结果表明,该方法在高样本利用效率和安全性方面具有明显效果。
Oct, 2023
本论文对深度强化学习的过拟合现象进行了系统研究,发现过拟合可能会以不同方式发生,并且常用的随机性技术不一定能有效检测或预防过拟合,因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。
Apr, 2018
本文通过实证分析表明新加基于先验知识的 priming 特征(例如通过视觉学习中的最近一帧或者图像分类中的醒目前景进行分类)可以显著提高深度学习对图像分类、持续控制和自主驾驶等应用的效果,从而较好地避免训练时出现的 “短路” 现象。理论上,这是因为 priming 特征引导了模型优化的方向,使其避免陷入一些不可靠的简单捷径。
Jun, 2022
通过引入时间感知、激活神经元重置的策略,我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题,实证结果表明其在缓解奖励过度优化方面具有显著的有效性。
Feb, 2024
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
本论文提出了一种用于预训练行为先验的方法,以便捕捉先前看到的各种任务中观察到的复杂输入输出关系,并展示了如何使用这种学习到的先验以便快速学习新任务,有效地解决了具有挑战性的机器人操纵领域中的问题。
Nov, 2020