Oct, 2022

何时更新您的模型:约束模型基强化学习

TL;DR提出了一种基于模型的强化学习算法的性能保证方法,引入了一个受约束的下界优化问题,采用了事件触发机制,从而克服了模型更新对性能的影响,并在实验中证明了该方法的有效性。