ICLRFeb, 2022

面向高效部署的强化学习:下界和最优性

TL;DR本篇论文基于 “约束优化” 的思想,提出了一种针对 RL 的”deployment efficiency“问题的理论表述,并使用有限时间线性 MDP 作为具体结构模型,揭示了在获取最佳策略的同时实现最小 “deployment complexity” 的最优部署效率的限制,并提供了相应的算法。此外,该表述还可以作为其他实际相关设置的构建块,具有灵活性。两个实例是 “安全 DE-RL” 和 “样本高效 DE-RL”,这些值得未来研究。