视觉超对齐:视觉基础模型的弱到强泛化
通过弱监督模型来训练强大的预训练模型,研究发现在自然语言处理、国际象棋和奖励建模任务中,弱模型引导强模型的普遍性能要优于弱模型,但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法,可以在自然语言处理任务中获得接近 GPT-3.5 级性能,这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。
Dec, 2023
通过使用具有弱监督的模型对强大模型进行监督,最近的研究初步探讨了超级对齐问题。实验发现,弱监督的强学生在对齐目标上持续胜过弱教师,引发了弱到强泛化现象。然而,我们担心在这种令人期待的现象背后,是否存在弱到强欺骗问题,即强大模型可能通过在弱模型已知领域中表现得很好,而在弱模型不知道的情况下产生不对齐的行为进行欺骗。我们在特定但现实的多目标对齐情况下以及奖励建模任务和偏好优化场景上的实验证明:(1)存在弱到强的欺骗现象;(2)随着弱模型和强模型能力差距的增加,欺骗现象可能会加剧。我们还讨论了潜在的解决方案,并发现通过中间模型的引导可以在一定程度上减轻欺骗问题。我们的工作强调了对超级对齐的真实可靠性更加紧迫的关注。
Jun, 2024
通过提高弱监督信号的可靠性,我们的方法有效地识别了弱标签的质量,并显著提高了弱到强泛化能力,降低了噪声监督的误差传播,增强了大型语言模型的准确性和可靠性。
Jun, 2024
本文是对 OpenAI 最近关于弱到强泛化(W2SG)的超对齐工作的跟进研究,并提出使用集成学习和弱到强监督实现过强人工智能模型开发和超智能进化的方法。通过人类监督和自动对齐评估器来增强弱监督的能力,实现了弱到强监督的目标,并讨论了改进弱监督对于增强弱到强泛化的影响。
Feb, 2024
当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时,本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了 WeakS-to-Strong 的扩展,模拟了人类意见的变异性。通过贝叶斯方法估计置信度分数来指导 WeakS-to-Strong 的泛化,并将其应用于文本生成任务,研究了更先进的监督策略,并且应用了直接偏好优化来推进学生模型的偏好学习。结果表明了该方法在强学生模型的可靠性方面的有效性,并显示其在超级对齐方面的潜力。
May, 2024
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉 - 语言基础模型 CLIP 的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本 CLIP 微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
强学生模型可以从较弱的教师那里学习:当在较弱模型的预测上进行训练时,强预先训练的学生可以学习纠正较弱模型的错误,并推广到教师不自信的例子,即使这些例子在训练中被排除在外。这使得可以从廉价、不完整和可能不正确的标签信息中进行学习,例如粗略的逻辑规则或语言模型的生成。我们证明了现有的弱监督理论不能同时解释这两个效应,我们将其称为伪标签纠正和覆盖扩展。我们给出了基于数据分布和学生假设类的展开性质的新界限,直接解释了伪标签纠正和覆盖扩展。我们的界限捕捉了弱到强泛化的直觉,即在强模型无法适应弱教师的错误而不产生额外错误时发生。我们展示了这些扩展性质可以通过有限数据进行检验,并提供了实证证据证明它们在实践中成立。
May, 2024
通过引入多个专业老师来共同监督强大的学生模型,我们的方法类似于经典的专家混合模型,通过逐步交替学生训练和教师分配,并引入教师 - 学生和局部 - 全局一致性,来解决具有大能力差距时的弱到强泛化挑战。
Feb, 2024
基于自训练的策略,通过锚点规范化和低秩微调,提升了图像分割基础模型的适应性和计算效率,并在多个下游分割任务中表现出优于预训练模型 SAM 和最先进的领域自适应方法的性能。
Dec, 2023