May, 2023

LLM 们已经足够先进了吗?一个为大型语言模型提供挑战性问题解决基准的测试

TL;DR本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术,GPT4 的最佳表现仍不到 40%,错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。