Jun, 2023

超越动态规划

TL;DR本文提出评分生命周期规划作为一个新的理论方法,它能够直接从给定状态计算出无限时间的最优动作序列,解决了强化学习中的一些问题,并在非线性最优控制方面取得了良好的效果。