BriefGPT.xyz
Ask
alpha
关键词
quantitative guarantees
搜索结果 - 1
分布式 POMDP 中利用离散通信减小返回差距
该论文研究了多智能体强化学习中部分可观察马尔可夫决策过程的沟通问题,提出了通过在线聚类问题将多智能体通信转化为离散通信方式,并结合强化学习使用正则化信息最大化损失函数进行优化,实验证明该方法在多智能体通信中能够以几位比特的自然可解释性消息实
→
PDF
a year ago
Prev
Next