通过引入基于元学习的算法,该文探讨了在复杂或动态环境中,即使存在不完美的模型,不严格追求模型准确度也能提高模型的实用性,并通过实验验证了算法的有效性。
May, 2022
本论文结合模型推理控制与模型无关的深度强化学习方法,提出一种更加高效的学习框架,并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。
Aug, 2019
模型驱动强化学习(MBRL)通过学习环境的显式模型,使智能体更具有样本效率、自适应性和可解释性。本研究提供了对 MBRL 中解决目标不匹配问题的多个解决方案类别的深入调查,并提出了一个分类以促进未来的研究。
Oct, 2023
本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用,实验结果表明,该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。
Dec, 2019
本文为了推动模型基强化学习(Model-based Reinforcement Learning, MBRL)的研究,收集了大量 MBRL 算法,并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法,并探讨了 MBRL 算法之间的主要差异和研究挑战。
Jul, 2019
本文研究了 MuZero,一种先进的模型基强化学习算法在控制任务、Atari 游戏和 9x9 围棋等多种环境下的表现,阐述了规划在强化学习中的作用,以及如何在规划过程中优化算法,提高表现,并指出单独采用规划无法实现强的泛化能力。
Nov, 2020
本文提出了一种新的框架,将基于模型的强化学习(MBRL)视为博弈,通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计,并设计了两种自然算法家族,旨在促进样本效率。
Apr, 2020
模型驱动的强化学习中,通过使用多时间步目标训练一步预测模型来解决一步预测误差在轨迹增长时的累积问题,实验证明指数衰减权重能显著提高长期视野得分,尤其在嘈杂环境下,展示了该方法在实际应用中的潜力。
本文探讨了在深度强化学习中,如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题,从而实现在环境变化时能够更加高效地应对。
Mar, 2023
本文研究模型驱动强化学习中的目标不匹配问题,通过探讨训练前向动力学模型的似然性和提高下游控制任务绩效之间的关系,发现单纯遵照似然性训练不一定能提高控制性能,提出一种缓解目标不匹配问题的方法并探讨了其他潜在的解决方案。
Feb, 2020