ICLRMay, 2022

随机控制系统中的稳定策略学习

TL;DR本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略,结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。