May, 2024

从文本分类到生成的贝叶斯弱强弱强

TL;DR当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时,本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了 WeakS-to-Strong 的扩展,模拟了人类意见的变异性。通过贝叶斯方法估计置信度分数来指导 WeakS-to-Strong 的泛化,并将其应用于文本生成任务,研究了更先进的监督策略,并且应用了直接偏好优化来推进学生模型的偏好学习。结果表明了该方法在强学生模型的可靠性方面的有效性,并显示其在超级对齐方面的潜力。