Feb, 2022

分布式离线增强学习的通信复杂度问题

TL;DR探讨了一种新颖的离线强化学习设置,其中多台分布式机器共同合作解决问题,但只允许一轮通讯,并且总信息传输量受到预算限制。对于上下文平滑贝叶斯推断、拟合普通线性模型和高斯过程这些问题,在信息论上建立了分布式统计估计器的最小max风险下限,同时提出了一种基于最小二乘估计和蒙特卡罗返回估计的学习算法,并证明它们可以实现最优风险,从而使得分布式离线RL算法达到最小max下限,此外,还证明了时间差异无法在单轮通讯环境中有效地利用所有可用设备的信息。