Mar, 2024

CURATRON:大型语言模型鲁棒对齐的完备偏好数据

TL;DR通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战,特别关注在偏好数据集中处理不完整和损坏数据的问题,并提出了一种鲁棒且完全重新校准数据集数值的新方法,采用保证多项式时间的排名算法,主要针对经典的 Bradley-Terry-Luce 模型及其某些推广模型,通过实验证实了算法在处理一般和大型语言模型偏好数据集中的对抗噪声和未观察比较方面的鲁棒性。