从弱监督中引发强能力：弱到强的泛化

Dec, 2023

从弱监督中引发强能力：弱到强的泛化

Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision

Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao...

TL;DR通过弱监督模型来训练强大的预训练模型，研究发现在自然语言处理、国际象棋和奖励建模任务中，弱模型引导强模型的普遍性能要优于弱模型，但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法，可以在自然语言处理任务中获得接近GPT-3.5级性能，这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。

Abstract

Widely used alignment techniques, such as reinforcement learning from human feedback (RLHF), rely on the ability of humans to supervise model behavior - for example, to evaluate whether a model faithfully followed instructions or generated safe outputs. However, future →

发现论文，激发创造

通过可扩展的监督和集成学习提高从弱到强的泛化能力

本文是对OpenAI最近关于弱到强泛化（W2SG）的超对齐工作的跟进研究，并提出使用集成学习和弱到强监督实现过强人工智能模型开发和超智能进化的方法。通过人类监督和自动对齐评估器来增强弱监督的能力，实现了弱到强监督的目标，并讨论了改进弱监督对于增强弱到强泛化的影响。

Feb, 2024

视觉超对齐：视觉基础模型的弱到强泛化

利用弱模型监督强模型以提升性能，采用新颖的自适应可调整损失函数进行弱强监督的综合实验，超越了基准性能和使用整个数据集进行微调的结果，展示了弱强泛化在提升视觉模型性能方面的重大潜力。

Feb, 2024

弱到强泛化的增益量化

使用弱模型生成的标签对强模型进行微调可以显著提高强模型性能，本文提出了一个理论框架来解释这种弱到强的泛化现象，并通过多种实证评估验证了理论发现。

May, 2024

超（表）对齐: 在弱到强的泛化中，强模型可能欺骗弱模型

通过使用具有弱监督的模型对强大模型进行监督，最近的研究初步探讨了超级对齐问题。实验发现，弱监督的强学生在对齐目标上持续胜过弱教师，引发了弱到强泛化现象。然而，我们担心在这种令人期待的现象背后，是否存在弱到强欺骗问题，即强大模型可能通过在弱模型已知领域中表现得很好，而在弱模型不知道的情况下产生不对齐的行为进行欺骗。我们在特定但现实的多目标对齐情况下以及奖励建模任务和偏好优化场景上的实验证明：（1）存在弱到强的欺骗现象；（2）随着弱模型和强模型能力差距的增加，欺骗现象可能会加剧。我们还讨论了潜在的解决方案，并发现通过中间模型的引导可以在一定程度上减轻欺骗问题。我们的工作强调了对超级对齐的真实可靠性更加紧迫的关注。

Jun, 2024

提升弱到强泛化性能的可靠性感知对齐

通过提高弱监督信号的可靠性，我们的方法有效地识别了弱标签的质量，并显著提高了弱到强泛化能力，降低了噪声监督的误差传播，增强了大型语言模型的准确性和可靠性。

Jun, 2024

大语言模型与人类价值观的强弱对齐

本研究探讨了人工智能系统与人类价值观对齐的挑战，尤其是在缺乏人类监督的情况下。提出了强对齐与弱对齐的区分，强调强对齐需要认知能力，以理解意图并产生所需效果。通过示例展示当前大语言模型在识别风险情境方面的不足，表明需进一步研究以实现弱对齐并提高统计答案的满意度。

Aug, 2024

解释、辩论、对齐：一种弱到强的语言模型泛化框架

本研究解决了AI系统对齐的复杂挑战，尤其是在多智能体系统和人机团队中。提出了一种通过弱到强泛化的方法来进行模型对齐，该方法通过强模型促进弱模型的改进，进而在解释生成与模型对齐之间架起桥梁。研究结果表明，这种促进性方法不仅提升了模型性能，还提供了模型对齐的深刻见解，并展示了可扩展的AI系统监督潜力。

Sep, 2024

超越准确性的弱到强泛化：安全性、毒性和法律推理的初步研究

本研究针对大型语言模型（LLMs）对人类价值的对齐问题，强调现有方法在实际对齐任务下的不足。作者提出将弱到强的生成扩展至实际对齐任务，并通过实证研究表明这一现象在安全性、毒性和法律推理三项复杂任务中的广泛存在，旨在提高模型输出的质量和对齐性能。

Oct, 2024

从弱对齐模型中获取奖励的弱到强偏好优化

本研究解决了语言模型与人类偏好对齐的有效性问题，提出了一种名为弱到强偏好优化（WSPO）的方法，该方法通过学习弱模型对齐前后的分布差异，从而实现强模型的对齐。实验结果表明，WSPO显著提升了模型的表现，表明利用弱模型来引导强模型以增强对齐能力是可行的。

Oct, 2024

利用弱监督进行语言模型的奖励建模

本研究解决了奖励模型训练中对人工标注数据依赖过大的问题。通过引入弱监督的方法，利用噪声或不精确的数据标注，研究人员能够扩展RLHF数据集并提升奖励模型的性能。研究表明，虽然弱监督在小型数据集上显著提高了奖励模型的表现，但在大型数据集上效果减弱，同时利用大型语言模型生成和弱标注响应的方法也展示了扩展偏好数据的潜力。

Oct, 2024