Oct, 2023

GLoRE:评估大型语言模型的逻辑推理能力

TL;DR该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估,提出了一个名为 GLoRE 的评估基准,包含 12 个数据集,通过实验证明了 ChatGPT 和 GPT-4 在逻辑推理方面的强大能力,并提出了改进方法,发布了数据集和评估程序以促进未来的研究。