BriefGPT.xyz
Ask
alpha
关键词
coma-dial
搜索结果 - 1
多智能体强化学习在反向传播中的离散化方法的深度分析
在多智能体强化学习中,当智能体无法观察到完整的环境状态时,沟通是至关重要的。借助可微分的通信渠道允许梯度在智能体之间流动作为一种反馈的最常见方法;然而,当我们想要使用离散消息来减小消息大小时,这种方法面临挑战,因为梯度无法通过离散通信渠道传
→
PDF
a year ago
Prev
Next