Mar, 2023

大型语言模型在算术任务中的表现如何?

TL;DR本研究提出一个数学计算数据集 MATH 401,用于测试最新的大型语言模型(包括 GPT-4,ChatGPT 等)在解决数学单词问题时的算术能力,并提供了能力的详细分析。