BriefGPT.xyz
Ask
alpha
关键词
target variance
搜索结果 - 1
ICLR
REValueD: 正则化的集合值分解方法用于可分解马尔可夫决策过程
Discrete-action 强化学习算法在具有高维离散行动空间的任务中常常表现不佳,由于可能的行动数量庞大。最近的一项进展利用来自多智能体强化学习的价值分解概念来解决这一挑战。本研究深入研究了价值分解的效应,揭示出其虽然减少了 Q-le
→
PDF
6 months ago
Prev
Next