Jul, 2021

通过马尔可夫决策过程进行通信

TL;DR本文介绍了一种被称为Markov编码游戏(MCG)的方法来处理在分散控制环境下进行通信的问题,并且介绍了一种新的理论算法MEME来进行最大熵强化学习和最小熵耦合的平衡。同时进行的实验也表明了这种算法在解决小型和大型MCG问题时具有良好性能。