动态更新到数据比率:最小化世界模型过度拟合
本文介绍了一种名为 REDQ 的简单模型无关算法,通过大比例使用的 Update-To-Data(UTD)比率,在连续动作深度强化学习(DRL)基准测试中实现了与当前最先进的基于模型算法相媲美,甚至更好的性能,同时使用比基于模型的方法更少的参数,并且具有更少的挂钟运行时间,是首个成功使用 UTD 比率 >> 1 的连续动作空间的模型无关 DRL 算法。
Jan, 2021
通过对深度强化学习的分析,我们发现在大量梯度更新次数远远超过环境样本数量的情况下,存在一种优先偏见现象,即代理程序过度依赖早期的交互并低估后期经验,从而影响其学习能力。我们发现这种现象的根本挑战在于价值过高估计,这不仅体现在样本外分布数据上,也表现在样本内分布数据上,并可追溯到由优化器动量推动的未知动作预测。我们采用了一种简单的单位球归一化方法,使得在大量梯度更新比例下学习变得可行,并在广泛使用的 dm_control 套件上取得了强大的性能,在具有挑战性的 dog 任务上与基于模型的方法相媲美。我们的结果对于早期数据过拟合导致学习不佳的先前解释提出了部分质疑。
Mar, 2024
本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析,研究了数据高效 RL 的瓶颈,发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首,因此,在任何形式的监督学习中,利用任何形式的正则化技术,找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。
Apr, 2023
该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法,可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现,达到了更高的样本效率和 14.3%的领域适应性比最佳基准结果。
Sep, 2022
提出了异步更新强化学习框架(AURL),通过协作设置异步更新 DST 模块和 DP 模块,并实现课程学习以解决强化学习采样过程中不平衡数据分布的问题,并引入多个用户模型增加对话的多样性,实验表明,在公共数据集 SSD-PHONE 上,该方法使对话成功率提高了 31.37%。
May, 2023
深度强化学习中的估计偏差问题以及引入的解决机制,包括新的双 TD 规范化的演员 - 评论家(TDR)方法,通过结合分布学习、长 N 步替代阶段奖励(LNSS)方法等 DRL 改进,我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线,在挑战性环境中显著提升了 TD3 和 SAC 的性能,使其与 D4PG(当前领先算法)性能媲美,并且还通过平均奖励、收敛速度、学习成功率和学习方差等指标改善了 D4PG 的性能,达到了新的领先水平。
Nov, 2023
通过引入基于不确定性驱动的鲁棒控制损失 (UDUC) 作为概率集合模型的替代目标,并受对比学习的启发,我们分析了 UDUC 损失的鲁棒性,并评估其在具有显著环境不匹配的挑战性实际强化学习基准 (RWRL) 上的性能。
May, 2024
TATU is proposed to address the issue of uncertainty in synthetic samples for model-based offline RL algorithms and has been shown to improve the performance of various RL algorithms on the D4RL benchmark.
Apr, 2023
该研究提出一种名为 RElight 的动态学习交通信号控制策略的模型,并结合随机集成学习方法以避免陷入局部最优结果。研究还引入了 UTD 比率以控制数据重用数量,以提高数据利用率并在合成数据和实际数据上进行了实验以证明该方法优于现有最优方法。
Mar, 2022