Feb, 2024

GSM-Plus: 评估LLMs作为数学问题求解器鲁棒性的综合基准

TL;DR通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。