Oct, 2024

克服连续控制中的慢决策频率:基于模型的序列强化学习用于无模型控制

TL;DR本研究解决了当前强化学习在实际应用中需要超越人类反应能力而带来的决策频率过慢的问题。提出的序列强化学习(SRL)算法能够在较低决策频率下生成有效的动作序列,利用"时间回忆"机制提高学习信号的效率。实验结果表明,SRL在多个连续控制任务上表现优异,并显著降低了样本复杂度,适用于需要可变决策频率的应用。