May, 2021

连续动作、状态和时间下的价值迭代

TL;DR本论文提出了一种名为cFVI的算法,能够有效地将动态规划应用于连续状态和动作的控制环境中;在非线性控制实验中,cFVI的策略表现与强化学习方法的表现相当,但在应用到物理系统时更具鲁棒性且无需显式地融入鲁棒性优化。