May, 2023

具有异构观测数据的联邦离线策略学习

TL;DR本文提出了一种基于聚合局部策略和双重稳健离线策略评估和学习策略的联邦策略学习算法,并针对异构数据源的观测数据情况,在不交换原始数据的情况下,在中央服务器上学习分布于异构数据源上的决策政策。