Sep, 2023

随机环境中的凸Q学习:扩展版

TL;DR引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括:对该凸松弛性质的属性进行了鉴定,提供了一种近似凸程序的直接模型无关方法,证明了所提出算法的收敛性,并介绍了计算速率。同时,该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。