Feb, 2024

弹性时间步长的强化学习

TL;DR传统强化学习算法通常在机器人技术中用于学习具有固定控制频率的控制器。本文提出Soft Elastic Actor-Critic(SEAC),这是一种新颖的离策略演员-评论家算法,旨在解决控制频率选择问题,通过实现弹性时间步长(具有已知可变时长的时间步长),使代理能够根据情况变化其控制频率,从而最大程度地减少计算资源和数据使用,提高能量效率和总体时间管理能力,尤其是在强化学习算法难以收敛的控制频率下,SEAC表现出更快速和更稳定的训练速度。此外,与类似方法Continuous-Time Continuous-Options(CTCO)模型相比,SEAC的任务性能更好,突出了SEAC在实际机器人强化学习应用中的潜力。