Jul, 2024

关于联邦学习中 LLM 微调的客户端偏好

TL;DR利用人类反馈进行强化学习(RLHF)通过使用偏好数据集微调预训练的大型语言模型(LLM),使 LLM 能够生成符合人类偏好的输出。为了解决由于隐私问题而不愿共享数据的客户所持有的这些偏好数据集的敏感性问题,我们提出了一个可行的框架,其中客户使用我们提出的 FedBis 协作训练一个具有偏好数据集的二值选择器。通过训练一个经过良好训练的选择器,我们可以进一步增强生成人类优选补全的 LLM。同时,我们提出了一种新颖的算法 FedBiscuit,通过基于他们的偏好将客户组织成平衡和不相交的簇,从而训练多个选择器。与 FedBis 相比,FedBiscuit 在模拟人类对成对补全的偏好上表现出优越性能。我们在联邦人类偏好数据集上进行了广泛的实验,这是第一个解决客户之间的异构数据划分问题的基准,结果表明 FedBiscuit 优于 FedBis,甚至超过传统的集中式训练。