BriefGPT.xyz
Ask
alpha
关键词
markovian sampling
搜索结果 - 4
DASA:延迟自适应多智能体随机逼近
我们提出了一种延迟自适应的算法 exttt {DASA},在多智能体随机逼近中实现了收敛速度的 $N$ 倍加速,同时仅依赖于混合时间 $ mix$ 和平均延迟 $ au_{avg}$,这一结果领先于现有研究。
PDF
3 months ago
TD 学习与线性函数逼近的简单有限时间分析
TD 学习在马尔可夫采样下,通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法,我们证明了在常数步长和标准选择下,TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明,并推测我们归纳证明技术将在更复杂的随机
→
PDF
4 months ago
具有延迟更新的随机逼近:马尔科夫采样下的有限时间收敛速率
基于大规模和多智能体强化学习的应用,我们研究了在马尔可夫采样下具有延迟更新的随机逼近(SA)方案的非渐近性能。我们首先表明,在时间变化的有界延迟下,延迟的 SA 更新规则保证了 “最后迭代” 指数级快速收敛到 SA 操作符固定点周围的球体。
→
PDF
5 months ago
基于马尔可夫采样的随机梯度下降在线协方差估计
我们研究了在马尔科夫采样下的在线重叠批次均值协方差估计器在随机梯度下降(SGD)中的应用。我们表明协方差估计器的收敛速度在依赖状态和独立于状态的马尔科夫采样下分别为 O (sqrt (d) n^(-1/8)(log n)^(1/4)) 和
→
PDF
a year ago
Prev
Next