BriefGPT.xyz
Ask
alpha
关键词
credit assignment consistency
搜索结果 - 1
离线多智能体强化学习与耦合值因子分解
OMAC 是一种新的离线多智能体强化学习算法,采用耦合值分解方案将全局价值函数分解为本地和共享组件,并保持状态值和 Q 值函数之间的信用分配一致性,并在分解的本地状态值函数上执行样本内学习,同时避免由于评估分布外动作而引起的分布移位,基于综
→
PDF
a year ago
Prev
Next