Dec, 2023

从弱监督中引发强能力:弱到强的泛化

TL;DR通过弱监督模型来训练强大的预训练模型,研究发现在自然语言处理、国际象棋和奖励建模任务中,弱模型引导强模型的普遍性能要优于弱模型,但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法,可以在自然语言处理任务中获得接近GPT-3.5级性能,这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。