构建自适应模型的模型驱动强化学习代理的部分模型

May, 2024

构建自适应模型的模型驱动强化学习代理的部分模型

Partial Models for Building Adaptive Model-Based Reinforcement Learning Agents

Safa Alver, Ali Rahimi-Kalahroudi, Doina Precup

TL;DR通过使用部分模型，深度模型驱动的算法可以在局部环境变化中实现适应性的快速构建和维持准确模型，并有效应对这种挑战。

Abstract

In neuroscience, one of the key behavioral tests for determining whether a subject of study exhibits model-based behavior is to study its adaptiveness to local changes in the environment. In →

neuroscience model-based behavior adaptivity reinforcement learning partial models

发现论文，激发创造

使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

本文探讨了在深度强化学习中，如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题，从而实现在环境变化时能够更加高效地应对。

Mar, 2023

评估基于模型的强化学习方法的适应性

该研究探讨了深度模型强化学习中的自适应能力问题，指出当前常用的模型方法未能很好地适应环境变化，并进一步研究了导致这种差异的原因和技术，最后通过实验证明了改进后的模型方法在实现自适应上的有效性。

Apr, 2022

部分观测下的代理建模用于深度强化学习

为了消除现有的管理机构建模中对受控代理的局部信息和选择动作的假设，该研究使用编码器 - 解码器结构从受控代理的局部信息中提取表示，并在训练期间使用管理代理的观察和动作来学习提取关于管理代理的表示，从而增强了管理代理的决策策略。提供了对合作、竞争和混合多代理环境的全面评估和消融研究，并表明我们的方法比不使用学习表示的基线方法产生更高的回报。

Jun, 2020

生命周期强化学习中的可扩展和鲁棒计划的最小价值等价部分模型

本文提出了新的模型，称为 “最小价值等效部分模型”，它只对环境的相关方面进行建模。通过实验证明，基于此类模型的规划方法具有可伸缩性和鲁棒性。

Jan, 2023

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

在线动态适应和神经网络先验的一次性操作技能学习

本研究提出了一种基于模型的强化学习算法，将以前任务的先验知识与在线动态模型适应相结合，实现了高效学习，并且成功地应用于各种复杂机器人操纵任务。

Sep, 2015

部分可观察马尔可夫决策过程中的动态深度强化学习算法

通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。