Nov, 2022

使用 Actor-Critic 深度强化学习进行自动调节 PID 控制

TL;DR本文探讨了如何利用强化学习预测苹果采摘机器人的最佳PID参数。通过对基于ROS框架的模拟机械臂实现Advantage Actor Critic(A2C)算法,并且进行了调整一个致动器和两个立动器的试验,结果表明该模型可以预测比设置基准线更好的PID增益,且可以根据苹果位置自适应预测PID参数, 从而得出一种新颖的自适应控制方法。