May, 2023

TheoremQA:基于定理的问答数据集

TL;DR本文介绍了一个以定理驱动的问答数据集 TheoremQA,用于评估人工智能模型应用定理解决具有挑战性的科学问题的能力。研究人员使用 16 个大型语言和代码模型评估 TheoremQA,并发现 GPT-4 在 Program-of-Thoughts Prompting 的帮助下解决这些问题的能力是无与伦比的,达到了 51%,而现有的所有开放源代码模型都低于 15%,仅仅超过了随机猜测的基线。