Jan, 2024

使用监督学习构建短视多方计算策略

TL;DR使用监督学习技术结合模型预测控制(MPC)在近期引起了显著关注,特别是在近似显式MPC领域,其中使用深度神经网络等函数逼近器通过离线生成的最优状态-动作对来学习MPC策略。本文考虑了一种替代策略,即使用监督学习离线学习最优值函数而不是最优策略。这可以用作具有非常短预测视野的近视型MPC中的代价函数,从而大大减少在线计算负担而不影响控制器性能。该方法与现有的值函数逼近研究不同之处在于,它通过使用离线收集的状态-值对来学习代价函数,而不是闭环性能数据。通过使用基于敏感度的数据增强方案解决了用于培训的状态-值对生成的成本问题。