Feb, 2023

ChatGPT 自然语言处理在数学问题上的独立评估

TL;DR本文针对商用大型语言模型 ChatGPT 在数学问题(Math Word Problems,MWP)中的性能表现进行了研究,并首次发现,ChatGPT 的性能表现会因要求展示解题过程而出现明显差异,而 MWPs 中未知数和操作数量等多个因素会影响模型的失败率,其中特别注意到加减法操作次数与失败率呈线性关系,同时我们也发布了一个 ChatGPT 对 MWP 回答的数据集,用于支持更多的研究。