May, 2023

数据驱动政策完善的理论研究

TL;DR本文提出了一种数据驱动的政策细化方法,特别设计用于安全关键应用的强化学习。我们的方法利用数据驱动优化和强化学习的优势,通过迭代细化增强政策的安全性和最优性。我们的主要贡献在于这种数据驱动政策细化概念的数学形式化。此框架通过从数据驱动验证中出现的反例进行学习,系统地改进强化学习政策。此外,我们提出了一系列定理,阐明了我们方法的关键理论特性,包括收敛性、鲁棒性界限、泛化误差和对模型不匹配的适应性。这些结果不仅验证了我们方法的有效性,也为不同环境和场景下的行为提供了更深入的理解。