强化学习中的时间限制

ICMLDec, 2017

Time Limits in Reinforcement Learning

Fabio Pardo, Arash Tavakoli, Vitaly Levdik, Petar Kormushev

TL;DR本文探讨了如何在有限时间内训练强化学习（reinforcement learning）代理，以及如何通过将时间限制整合到算法中来提高性能和稳定性，在控制任务（control tasks）方面取得了最新的成果。

Abstract

In reinforcement learning, it is common to let an agent interact for a fixed amount of time with its environment before resetting it and repeating the process in a series of episodes. The task that the agent has to learn can either be to maximize its performance over (i) that fixed per

reinforcement learning time limits experience replay markov property control tasks

发现论文，激发创造

时间自适应强化学习

本文介绍一种适用于时间限制任务的增强学习算法，称为适应时间的马尔可夫决策过程，这种算法可以灵活地适应不同的时间限制，并使用两种无模型，基于价值的算法，Gamma-Ensemble 和 n-Step Ensemble。该算法可与许多现有的 RL 方法，算法和场景兼容，并能够实现零 - shot 的适应能力。

Apr, 2020

深度强化学习智能体中的间隔定时

研究在深度强化学习代理中通过端到端训练实现了时间区间再现范式，并表征了循环和前馈代理所采用的机制，进一步推进了对代理如何表示时间的理解。

May, 2019

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

解决持续任务强化学习中无界状态空间问题

本篇论文探讨了深度加强学习算法在面对状态空间无法预测，强烈依赖于重置时的困境。通过引入 Lyapunov 启发式奖励塑造方法，策略学习可以更快、更稳定地收敛到最优解

Jun, 2023

强化学习中的延迟

研究关于延迟对动态系统、马尔可夫决策过程、强化学习和实证结果的影响。

Sep, 2023

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

强化学习中的时间离散化特异性

我们考虑了连续时间和离散时间回报的定义之间的关系，并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境，或者粒度本身是随机的情况下，具有实际意义。

Jun, 2024

带时间窗的概率时空约束下的强化学习

我们提出了一种基于自动机理论的强化学习方法，用于复杂时空约束下的限时学习。该方法通过将有界时态逻辑约束转化为总自动机，并基于已知的转移概率上下界避免 “不安全” 动作，从而在学习过程中强制满足约束条件的概率达到预期值。

Jul, 2023

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022