Feb, 2025

少即是多:通过偏好数据选择改善大型语言模型的对齐

TL;DR本研究解决了大型语言模型与人类偏好对齐中的数据选择问题,提出了一种新的边际最大化原则以指导数据集的策划,从而减少因噪声数据引起的参数收缩。实验表明,仅使用10%的Ultrafeedback数据集,我们的方法在多个模型上实现了3%到8%的性能提升,显著降低了计算成本,展示了数据选择在偏好优化中的潜力。