Dec, 2023

联邦 Q-Learning:线性遗憾加速与低通信成本

TL;DR在这篇论文中,我们考虑了联合强化学习用于表格式情节马尔可夫决策过程(MDP),在这种过程中,通过一个中央服务器的协调,多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法,分别称为 FedQ-Hoeffding 和 FedQ-Bernstein,并且证明了当时间范围足够大时,与单个代理对应的总后悔值可以实现线性加速,而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择,以及一组新的浓度不等式,用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。