BriefGPT.xyz
Ask
alpha
关键词
gossip algorithm
搜索结果 - 2
基于分布式 Q 学习的多智能体马尔可夫决策过程和满足性准则
本文提出了一种强化学习算法来解决多智能体马尔可夫决策过程 (MMDP),通过黑韦尔的可接近性定理,目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。通过在 Q-learning 算法中结合每个智能体成本的加权组合,其中成本是通过
→
PDF
8 months ago
黎曼流形上的随机梯度下降
本文介绍了一种扩展随机梯度下降算法来优化在 Riemannian 流形上定义的代价函数的方法,并通过四个例子展示了其潜在的应用,其中包括派生和数字测试的一种新型的协方差矩阵的聚集算法。
PDF
13 years ago
Prev
Next