Jun, 2022

具有线性函数逼近的可证明高效的无模型约束强化学习

TL;DR发展第一个无需模拟器的模型自由算法,它在大型系统中实现次线性遗憾和次线性约束违规,并且仅通过特征映射的维度依赖于状态空间。这是通过在标准LSVI-UCB算法中引入原始-对偶优化和用软最大策略替换标准贪婪选择来实现的。