May, 2024
弱到强泛化的理论分析
Theoretical Analysis of Weak-to-Strong Generalization
TL;DR强学生模型可以从较弱的教师那里学习:当在较弱模型的预测上进行训练时,强预先训练的学生可以学习纠正较弱模型的错误,并推广到教师不自信的例子,即使这些例子在训练中被排除在外。这使得可以从廉价、不完整和可能不正确的标签信息中进行学习,例如粗略的逻辑规则或语言模型的生成。我们证明了现有的弱监督理论不能同时解释这两个效应,我们将其称为伪标签纠正和覆盖扩展。我们给出了基于数据分布和学生假设类的展开性质的新界限,直接解释了伪标签纠正和覆盖扩展。我们的界限捕捉了弱到强泛化的直觉,即在强模型无法适应弱教师的错误而不产生额外错误时发生。我们展示了这些扩展性质可以通过有限数据进行检验,并提供了实证证据证明它们在实践中成立。