BriefGPT.xyz
Sep, 2023
随机环境中的凸Q学习:扩展版
Convex Q Learning in a Stochastic Environment: Extended Version
HTML
PDF
Fan Lu, Sean Meyn
TL;DR
引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括:对该凸松弛性质的属性进行了鉴定,提供了一种近似凸程序的直接模型无关方法,证明了所提出算法的收敛性,并介绍了计算速率。同时,该方法可以推广到多种性能指标,并通过经典库存控制问题进行了实证验证。
Abstract
The paper introduces the first formulation of
convex q-learning
for
markov decision processes
with
function approximation
. The algorithms
→