Jul, 2023

反馈即所需:基于近似物理模型的真实世界强化学习

TL;DR本文提出了一种基于策略梯度的策略优化框架,可以通过可能高度简化的一阶模型对实际数据进行监督学习,从而设计出精确的控制策略。