构建自适应模型的模型驱动强化学习代理的部分模型
本文探讨了在深度强化学习中,如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题,从而实现在环境变化时能够更加高效地应对。
Mar, 2023
该研究探讨了深度模型强化学习中的自适应能力问题,指出当前常用的模型方法未能很好地适应环境变化,并进一步研究了导致这种差异的原因和技术,最后通过实验证明了改进后的模型方法在实现自适应上的有效性。
Apr, 2022
为了消除现有的管理机构建模中对受控代理的局部信息和选择动作的假设,该研究使用编码器 - 解码器结构从受控代理的局部信息中提取表示,并在训练期间使用管理代理的观察和动作来学习提取关于管理代理的表示,从而增强了管理代理的决策策略。提供了对合作、竞争和混合多代理环境的全面评估和消融研究,并表明我们的方法比不使用学习表示的基线方法产生更高的回报。
Jun, 2020
本文提出了新的模型,称为 “最小价值等效部分模型”,它只对环境的相关方面进行建模。通过实验证明,基于此类模型的规划方法具有可伸缩性和鲁棒性。
Jan, 2023
本研究旨在提出一种模型基础的强化学习元学习方法,以在明显减少样本数量的情况下实现机器人在线适应新任务,并证明该方法在模拟和实际机器人中的有效性。
Mar, 2018
本研究提出了一种基于模型的强化学习算法,将以前任务的先验知识与在线动态模型适应相结合,实现了高效学习,并且成功地应用于各种复杂机器人操纵任务。
Sep, 2015
通过将动作序列纳入来解决部分可观察马尔可夫决策过程,本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络,结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。
Jul, 2023
本文介绍了一种训练 RL 代理器的方法,通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表,该代理器可以快速适应开放式的 3D 问题,并具有自适应性。
Jan, 2023
该研究探讨了在模型不完备的情况下,通过估计预测不确定性(如起源于先验模型不充分的模型不适配性等因素)的方法,选择性地使用模型,以此提高强化学习算法的学习效果。
Jul, 2020
研究了多智能体下的多任务增强学习问题,提出了一种去中心化的单任务学习方法,并介绍了一种将单任务策略转化为适用于多个相关任务的统一策略的方法,无需明确标识任务身份。
Mar, 2017