Aug, 2022

基于模型的SINDy强化学习

TL;DR利用物理学领域的最新进展,提出一种新的方法来发现强化学习中物理系统的控制非线性动态,并证明此方法能够在很少的轨迹采样数量(仅需要一次$≤30$时间步的轨迹)下发现此动态,从而为系统带来基于模型的强化学习的好处,并且不需要事先开发模型。该算法在四个控制问题上的实验表明,训练得到的基于控制系统真实动态的最优策略泛化能力强,且对于实际物理系统具有很好的性能表现。与现有的其他方法相比,该方法需要采样更少的真实物理系统轨迹。