Jul, 2023

走向联邦基础模型:适用于组结构学习的可扩展数据集管道

TL;DR介绍了一个名为 “Dataset Grouper” 的库,用于创建大规模的组织结构化(例如联邦)数据集,使得联邦学习模拟能够达到基于基础模型的规模。该库允许基于用户指定的分区创建现有数据集的组织结构化版本,并直接导致各种有用的异构数据集,可插入现有软件框架。我们在实验中证明了 Dataset Grouper 能够支持比以前的工作大数个数量级的大规模联邦语言建模模拟,表明这类算法在下游个性化和任务特定调整中发挥出元学习方法而不是经验风险最小化方法的效用。