变量决策频率选项评论家

Dec, 2022

Variable-Decision Frequency Option Critic

Amirmohammad Karimi, Jun Jin, Jun Luo, A. Rupam Mahmood, Martin Jagersand...

TL;DR本研究提出一种名为 CTCO 的框架，使学习智能体通过选择变量持续时间的子策略来实现在可能的情况下以低频率运作，并在必要时以高频率运作，从而克服了决策频率选择的困难。

Abstract

In classic reinforcement learning algorithms, agents make decisions at discrete and fixed time intervals. The physical duration between one decision and the next becomes a critical hyperparameter. When this duration is too short, the agent needs to make many decisions to achieve its go

reinforcement learning continuous-time continuous-options time-abstraction techniques sub-policies decision frequency

发现论文，激发创造

通过持续行动的可变时间离散化的演员 - 评论家方法

提出了一种名为 SusACER 的离策略强化学习算法，它结合了不同时间离散化设置的优势，通过始初稀疏时间离散化逐渐转换为精细离散化，在机器人控制环境中进行分析，证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D 等场景中优于现有技术。

Aug, 2023

强化学习中的时间离散化特异性

我们考虑了连续时间和离散时间回报的定义之间的关系，并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境，或者粒度本身是随机的情况下，具有实际意义。

Jun, 2024

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

通过行为持久性在批强化学习中控制频率自适应

本文介绍了一种基于动作重复的新算法 PFQI，旨在增强强化学习算法的性能，在理论上和实验中得到验证。

Feb, 2020

DDCO: 从示范中发现深度连续操作的机器人学习

本文介绍了 Discovery of Deep Continuous Options （DDCO）算法，这是一种针对机器人模仿学习的扩展型深度发现选项（DDO）算法，通过学习从示例中获得的深度神经网络参数化的低级连续控制技能。我们通过混合范畴 - 连续分布模型来扩展 DDO，以参数化可以调用离散选项以及连续控制动作的高级策略，并使用交叉验证方法减少 DDO 需要使用的选项数量指定，通过实验验证了 DDCO 算法的有效性。

Oct, 2017

Option-Critic 架构

本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

互动强化学习中反馈频率对于机器人任务的影响量化

本文研究了交互反馈频率对强化学习在连续状态和动作空间的机器人任务中的影响，证明了随着机器人操作熟练度的提高应该改变反馈频率而不是坚持使用单一的最佳反馈频率。

Jul, 2022

什么时候进行感知和控制？一种适应时间的连续时间强化学习方法

优化系统学习离散时间决策进程的强化学习算法，以减少与系统的交互次数并提高性能，同时提出了时间自适应控制和感知（TaCoS）框架以及 OTaCoS 模型算法。

Jun, 2024

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023