Feb, 2024
线性二次控制中策略梯度的隐式偏见:对未观测初始化状态的外推
Implicit Bias of Policy Gradient in Linear Quadratic Control:
Extrapolation to Unseen Initial States
TL;DR本文研究了强化学习中策略梯度的内隐偏差,发现其对于训练过的初始状态的外推程度取决于系统在这些初始状态下的探索程度。通过理论和实验证实了该结论,并推测通过开发针对初始状态的有信息选择方法,可以显著改进现实世界的最优控制问题。