动态环境下强化学习算法综述

May, 2020

A Survey of Reinforcement Learning Algorithms for Dynamically Varying Environments

Sindhu Padakandla

TL;DR本文综述了针对动态环境模型的强化学习方法，目的是在学习过程中最小化奖励损失或找到适当的策略以实现在不断变化的操作条件下智能体的适应，并讨论了这些方法的优缺点以及未来的改进方向。

Abstract

reinforcement learning (RL) algorithms find applications in inventory control, recommender systems, vehicular traffic management, cloud computing and robotics. The real-world complications of many tasks arising in these domains makes them difficult to solve with the basic assumptions u

reinforcement learning dynamically varying environment models autonomous agents operating conditions adaptation

发现论文，激发创造

强化学习算法概述与分类

本文根据应用场景分为三类环境，分析强化学习算法在不同环境下的可行性，提供算法基础的概述和算法之间的相似性和差异性的比较，帮助研究者和实践者选择最适合自己的算法。

Sep, 2022

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

非稳态环境下的强化学习

本研究提供一种在非平稳环境下最优决策的强化学习方法，包括改进的变点检测算法和最大化长期折扣奖励的强化学习算法，并在非平稳的随机马尔可夫决策过程、传感器能源管理和交通信号控制等问题中验证了其有效性。

May, 2019

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

基于代理模型的连续变动供应链建模

该研究探讨了在不同策略要求的环境中，代理人能否控制变化的供应链问题，避免长时间未见任务导致的灾难性遗忘，通过对比不同算法的性能发现，在不同程度的随机性环境中，将学习策略适用于连续变化的供应链情境中是不同的，并且具有记忆历史的算法在应对极端任务的变化中表现较好。

Dec, 2023

强化学习算法在倒立摆问题上的比较

本文研究了在没有先验动态知识的情况下，利用强化学习算法（如时间差分、策略梯度、价值函数逼近）对基准车杆动力系统进行控制的最优控制策略，进一步提出了将强化学习和摆起控制器相结合的新方法。

Oct, 2018

突发模型变化下的强化学习

提出了一种基于模型无关算法的强化学习问题解决方案，该算法通过与环境互动学习最优策略，并利用最快的变化检测算法来检测模型变化，从而获得长期折现奖励。

Apr, 2023

自主驾驶的深度强化学习：一份综述

本文综述了深度强化学习算法在自动驾驶任务上的应用，包括分类、验证、测试和强化现有强化学习算法解决方案的方法，还介绍了相关领域和挑战。

Feb, 2020

从二维到三维环境中的 Q 学习：利用强化学习模拟自主导航，无需依赖库

通过实证分析，本研究评估了强化学习代理在不同空间维度中的学习轨迹和适应过程，揭示了强化学习算法在导航复杂的多维空间中的有效性，并对未来研究提出了思考。

Mar, 2024

自动强化学习概述

论文探讨自动化强化学习的关键元素和挑战，并讨论自动化强化学习的最新工作、应用和研究方向。

Jan, 2022