Oct, 2023

群体偏好优化:大型语言模型的少样本对齐

TL;DR利用少量数据实现群体偏好优化的大型语言模型对齐框架,通过使用独立的 Transformer 模块预测群体对语言模型生成结果的偏好,并通过元学习训练多个群体的偏好,从而在大规模语言模型上实现更准确的对齐效果,同时减少了群体特定偏好、训练和推理计算资源的需求。