Feb, 2025

顾问-演员-评论家: 消除强化学习控制中的稳态误差

TL;DR本研究解决了强化学习算法在高精度控制任务中常出现的亚优性能问题,特别是在需要达成精确目标状态的任务中。提出的顾问-演员-评论家(AAC)方法结合了反馈控制理论的精确性与强化学习的自适应学习能力,通过顾问指导演员优化控制行为,从而提高目标实现的精度。基准测试表明,AAC在需要高精度的目标导向任务中超越了标准强化学习算法,展现了其高精度、可靠性和鲁棒性。