Oct, 2023

GLoRE:评估大型语言模型的逻辑推理能力

TL;DR该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估,提出了一个名为GLoRE的评估基准,包含12个数据集,通过实验证明了ChatGPT和GPT-4在逻辑推理方面的强大能力,并提出了改进方法,发布了数据集和评估程序以促进未来的研究。