Dec, 2023

通过异构行动抹除通道进行多智能体赌博学习

TL;DR提出了一种新颖的算法,使学习者能够与异构丢失动作信道上的分布式代理并行交互,从而解决了通信约束和延迟等多智能体环境中的问题。