Oct, 2021

训练验证程序员解决数学应用题

TL;DR介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K,表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能,提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。