强化学习中的时间离散化特异性

Jun, 2024

An Idiosyncrasy of Time-discretization in Reinforcement Learning

Kris De Asis, Richard S. Sutton

TL;DR我们考虑了连续时间和离散时间回报的定义之间的关系，并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境，或者粒度本身是随机的情况下，具有实际意义。

Abstract

Many reinforcement learning algorithms are built on an assumption that an agent interacts with an environment over fixed-duration, discrete time steps. However, physical systems are continuous in time, requiring a choice of →

reinforcement learning algorithms continuous-time discrete-time time-discretization granularity return definitions

发现论文，激发创造

使深度 Q 学习方法对时间离散化具有鲁棒性

本研究证明了 Q-learning 不存在于连续时间中，指出时间离散化的敏感性是 Deep Reinforcement Learning 具有鲁棒性的关键因素，提出了一种无模型的强化学习算法，能够在不同的时间离散化下稳健地工作。

Jan, 2019

通过持续行动的可变时间离散化的演员 - 评论家方法

提出了一种名为 SusACER 的离策略强化学习算法，它结合了不同时间离散化设置的优势，通过始初稀疏时间离散化逐渐转换为精细离散化，在机器人控制环境中进行分析，证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D 等场景中优于现有技术。

Aug, 2023

基于模型的强化学习的自适应离散化

本篇论文介绍了一种基于模型的适应性离散技术，在大型（潜在连续的）状态 - 动作空间中设计一种高效的基于情节的强化学习算法，并通过实验证明，该算法在收敛速度和存储空间利用效率方面显著优于固定离散化。

Jul, 2020

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

变量决策频率选项评论家

本研究提出一种名为 CTCO 的框架，使学习智能体通过选择变量持续时间的子策略来实现在可能的情况下以低频率运作，并在必要时以高频率运作，从而克服了决策频率选择的困难。

Dec, 2022

深度强化学习智能体中的间隔定时

研究在深度强化学习代理中通过端到端训练实现了时间区间再现范式，并表征了循环和前馈代理所采用的机制，进一步推进了对代理如何表示时间的理解。

May, 2019

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

什么时候进行感知和控制？一种适应时间的连续时间强化学习方法

优化系统学习离散时间决策进程的强化学习算法，以减少与系统的交互次数并提高性能，同时提出了时间自适应控制和感知（TaCoS）框架以及 OTaCoS 模型算法。

Jun, 2024

延迟几何折扣：强化学习的另一种准则

通过推广折扣问题的公式，使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题，并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。

Sep, 2022