May, 2024

稳定的逆强化学习:控制 Lyapunov 景观的政策

TL;DR通过学习专家示范来灵活地编程自主系统以实现复杂行为,或者预测代理行为是一个强大的工具,特别是在协同控制环境中。我们提出了一种新颖的稳定性认证逆优化奖励学习法,通过将代价函数推断问题重新表述为从示范数据中学习控制李亚普诺夫函数。我们利用闭合形式表达式和相关控制策略,能够通过观察诱导动力学的吸引子景观有效地搜索李亚普诺夫函数的空间。通过使用最小二乘法构造逆优化李亚普诺夫函数,我们使用凸优化方法来解决问题。我们通过理论分析控制李亚普诺夫函数提供的最优性质,并利用模拟和真实数据来评估我们的方法。