深度强化学习中的优先偏差

ICMLMay, 2022

The Primacy Bias in Deep Reinforcement Learning

Evgenii Nikishin, Max Schwarzer, Pierluca D'Oro, Pierre-Luc Bacon, Aaron Courville

TL;DR本文研究了深度强化学习算法中的优先性偏差问题，提出了一种简单且通用的机制来解决这个问题，并将其应用于离散和连续动作领域的算法中，从而显著提高了它们的性能。

Abstract

This work identifies a common flaw of deep reinforcement learning (RL) algorithms: a tendency to rely on early interactions and ignore useful evidence encountered later. Because of training on progressively growing datasets, deep RL agents incur a risk of →

deep reinforcement learning primacy bias overfitting reset mechanism performance improvement

发现论文，激发创造

模型为基础的强化学习中的优先倾向

针对模型驱动的强化学习中的原生偏见问题，提出了一种名为 “世界模型重置” 的方法，并在多个连续控制任务和离散控制任务中验证了该方法的有效性。

Oct, 2023

高更新比例下的深度强化学习剖析：克服价值高估和发散

通过对深度强化学习的分析，我们发现在大量梯度更新次数远远超过环境样本数量的情况下，存在一种优先偏见现象，即代理程序过度依赖早期的交互并低估后期经验，从而影响其学习能力。我们发现这种现象的根本挑战在于价值过高估计，这不仅体现在样本外分布数据上，也表现在样本内分布数据上，并可追溯到由优化器动量推动的未知动作预测。我们采用了一种简单的单位球归一化方法，使得在大量梯度更新比例下学习变得可行，并在广泛使用的 dm_control 套件上取得了强大的性能，在具有挑战性的 dog 任务上与基于模型的方法相媲美。我们的结果对于早期数据过拟合导致学习不佳的先前解释提出了部分质疑。

Mar, 2024

通过复位深度集合代理实现高效且安全的深度强化学习

通过在重置方法中引入深度集成学习，我们提出了一种新的以增强样本利用效率为目标并解决基准重置方法局限性的方法。数值结果表明，该方法在高样本利用效率和安全性方面具有明显效果。

Oct, 2023

关于深度强化学习中的归纳偏差

本文研究了深度强化学习算法中的归纳偏见及其对算法性能的影响，并通过实验发现了某些领域特定组件的更有效的自适应解决方案可能会提高算法性能。

Jul, 2019

深度强化学习中过拟合的研究

本论文对深度强化学习的过拟合现象进行了系统研究，发现过拟合可能会以不同方式发生，并且常用的随机性技术不一定能有效检测或预防过拟合，因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。

Apr, 2018

深度强化学习中的预训练调查

该论文系统地评估了目前深度强化学习领域中采用的预训练方法，提出了分类体系、讨论了各个方面，并关注了未来可能遇到的挑战和需要探索的方向。

Nov, 2022

火中取栗：通过引导避免 DNN 捷径

本文通过实证分析表明新加基于先验知识的 priming 特征（例如通过视觉学习中的最近一帧或者图像分类中的醒目前景进行分类）可以显著提高深度学习对图像分类、持续控制和自主驾驶等应用的效果，从而较好地避免训练时出现的 “短路” 现象。理论上，这是因为 priming 特征引导了模型优化的方向，使其避免陷入一些不可靠的简单捷径。

Jun, 2022

面对扩散模型中的奖励过优化：归纳和初要偏见的视角

通过引入时间感知、激活神经元重置的策略，我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题，实证结果表明其在缓解奖励过度优化方面具有显著的有效性。

Feb, 2024

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

鹦鹉：数据驱动的强化学习行为先验

本论文提出了一种用于预训练行为先验的方法，以便捕捉先前看到的各种任务中观察到的复杂输入输出关系，并展示了如何使用这种学习到的先验以便快速学习新任务，有效地解决了具有挑战性的机器人操纵领域中的问题。

Nov, 2020