BriefGPT.xyz
大模型
Ask
alpha
关键词
discounted markov decision processes
搜索结果 - 3
时差学习的有限样本分析
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
PDF
8 months ago
折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架
用假均值将混合风险下的 MDP 转化为标准 MDP,并提出一种基于二级优化结构的统一算法框架,该框架还允许收敛性分析。通过数值实验,验证了该算法的有效性。
PDF
2 years ago
策略迭代在常数贴现率下的 2 人回合制随机博弈中具有强多项式时间复杂度
本文利用改进的单纯形法、策略迭代算法及策略提升算法的收敛速度,利用最小化操作步数的方法,解决了两人纯策略有限的保底价值为零的零和收益随机博弈的问题。
PDF
14 years ago
Prev
Next