使用 Actor-Critic 深度强化学习进行自动调节 PID 控制

Nov, 2022

使用 Actor-Critic 深度强化学习进行自动调节 PID 控制

Autotuning PID control using Actor-Critic Deep Reinforcement Learning

Vivien van Veldhuizen

TL;DR本文探讨了如何利用强化学习预测苹果采摘机器人的最佳PID参数。通过对基于ROS框架的模拟机械臂实现Advantage Actor Critic（A2C）算法，并且进行了调整一个致动器和两个立动器的试验，结果表明该模型可以预测比设置基准线更好的PID增益，且可以根据苹果位置自适应预测PID参数, 从而得出一种新颖的自适应控制方法。

Abstract

This work is an exploratory research concerned with determining in what way reinforcement learning can be used to predict optimal PID parameters for a robot designed for apple harvest. To study this, an algorithm called Advantage Actor Critic (A2C) is implemented on a simulated robot a