BriefGPT.xyz
Ask
alpha
关键词
avlpr framework
搜索结果 - 1
独立线性函数逼近的马尔可夫博弈的优化样本复杂度
本文首次通过对 Wang 等人 (2023) 的 AVLPR 框架进行优化,应用基于数据的悲观估计来解决 “多智能体诅咒”,并提出了新颖的 “动作相关奖励” 方法,通过拓展选择插件算法的范围,结合单智能体强化学习领域的最新技术,提出了一种同
→
PDF
5 months ago
Prev
Next