通过持续行动的可变时间离散化的演员 - 评论家方法

Aug, 2023

通过持续行动的可变时间离散化的演员 - 评论家方法

Actor-Critic with variable time discretization via sustained actions

Jakub Łyskawa, Paweł Wawrzyński

TL;DR提出了一种名为 SusACER 的离策略强化学习算法，它结合了不同时间离散化设置的优势，通过始初稀疏时间离散化逐渐转换为精细离散化，在机器人控制环境中进行分析，证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D 等场景中优于现有技术。

Abstract

reinforcement learning (RL) methods work in discrete time. In order to apply RL to inherently continuous problems like robotic control, a specific time discretization needs to be defined. This is a choice between

reinforcement learning time discretization susacer robotic control off-policy rl algorithm

发现论文，激发创造

强化学习中的时间离散化特异性

我们考虑了连续时间和离散时间回报的定义之间的关系，并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境，或者粒度本身是随机的情况下，具有实际意义。

Jun, 2024

在视频游戏中实用的强化学习的离散和连续动作表示

本研究基于 Soft Actor-Critic 算法提出了一种能够处理离散、连续和参数化动作的强化学习算法 Hybrid SAC，不仅能成功地解决高速驾驶等游戏中的任务，而且在参数化动作基准任务上也能与现有最先进的算法竞争，同时探讨了在最小计算成本下使用正则化流来丰富策略表达能力的影响，发现了 SAC 与正则化流一起使用时可能出现的潜在问题，并提出了优化不同目标的方法。

Dec, 2019

使深度 Q 学习方法对时间离散化具有鲁棒性

本研究证明了 Q-learning 不存在于连续时间中，指出时间离散化的敏感性是 Deep Reinforcement Learning 具有鲁棒性的关键因素，提出了一种无模型的强化学习算法，能够在不同的时间离散化下稳健地工作。

Jan, 2019

可部署的变控制率强化学习

以变频控制为基础的 Soft Elastic Actor-Critic (SEAC) 算法相较于固定频率的策略在控制系统中表现出更高的平均回报率、较短的任务完成时间和更少的计算资源占用。

Jan, 2024

什么时候进行感知和控制？一种适应时间的连续时间强化学习方法

优化系统学习离散时间决策进程的强化学习算法，以减少与系统的交互次数并提高性能，同时提出了时间自适应控制和感知（TaCoS）框架以及 OTaCoS 模型算法。

Jun, 2024

弹性时间步长的强化学习

传统强化学习算法通常在机器人技术中用于学习具有固定控制频率的控制器。本文提出 Soft Elastic Actor-Critic（SEAC），这是一种新颖的离策略演员 - 评论家算法，旨在解决控制频率选择问题，通过实现弹性时间步长（具有已知可变时长的时间步长），使代理能够根据情况变化其控制频率，从而最大程度地减少计算资源和数据使用，提高能量效率和总体时间管理能力，尤其是在强化学习算法难以收敛的控制频率下，SEAC 表现出更快速和更稳定的训练速度。此外，与类似方法 Continuous-Time Continuous-Options（CTCO）模型相比，SEAC 的任务性能更好，突出了 SEAC 在实际机器人强化学习应用中的潜力。

Feb, 2024

变量决策频率选项评论家

本研究提出一种名为 CTCO 的框架，使学习智能体通过选择变量持续时间的子策略来实现在可能的情况下以低频率运作，并在必要时以高频率运作，从而克服了决策频率选择的困难。

Dec, 2022

软分解策略评论者：弥合连续控制与离散 RL 的差距

这篇论文介绍了 SDPC 架构，它将软强化学习和演员 - 评论家技术与离散强化学习方法相结合，以克服连续控制问题的挑战，实现了在多个连续控制任务中优于当前最先进的方法的表现。

Aug, 2023

离散动作设置下的软演员 - 批评家算法

该论文介绍了针对连续动作环境的强化学习算法 Soft Actor-Critic，并提出了一种适用于离散动作环境的替代算法。通过与 Atari 游戏套件中的调优模型无关的竞争，在未进行超参数调整的情况下展示了其具有竞争力。

Oct, 2019

基于模型的强化学习的自适应离散化

本篇论文介绍了一种基于模型的适应性离散技术，在大型（潜在连续的）状态 - 动作空间中设计一种高效的基于情节的强化学习算法，并通过实验证明，该算法在收敛速度和存储空间利用效率方面显著优于固定离散化。

Jul, 2020