May, 2024

优化语言模型的推理能力的弱监督方法

TL;DR利用自我强化机制提升大型语言模型(LLMs)的推理能力,并通过一个弱监督基准测试集 extsc {PuzzleBen},含有 25,147 个复杂问题以及人工生成的解释,展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。