Feb, 2024

联邦离线强化学习:协同单策略覆盖足够

TL;DR通过将离线强化学习与联邦学习相结合,本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势,设计了一种名为 FedLCB-Q 的变体算法,通过合作利用多个智能体的离线数据集实现了线性加速,并实现了与单智能体方法相当的样本复杂度,同时具备通信效率。