Mar, 2024

打下基础先?研究原子技能对复杂推理任务的普遍化

TL;DR目前的语言模型在基本推理方面已经展示了它们的能力,但在需要结合原子技能的更复杂的推理任务上却存在困难,比如需要算术和单位转换等技能的数学问题。本文首先提出了一个探测框架,以研究原子技能是否能自主泛化到复杂推理任务。然后,引入了分层课程学习训练策略来实现更好的技能泛化。在我们的实验中,我们发现原子技能无法自主泛化到组合任务。通过利用分层课程学习,我们成功诱导了泛化,在复杂推理任务上显著提高了开源语言模型的性能。有希望的是,这种技能的泛化在跨数据集和跨领域的场景中也是有效的。复杂推理也有助于增强原子技能。我们的研究结果为设计更好的复杂推理任务训练策略提供了有价值的指导。