May, 2023

使用 OOD 示例测试大型语言模型的普遍演绎推理能力

TL;DR通过对一组广泛的演绎规则的测试,本研究构建了一个新的合成和可编程推理数据集,测试了四个不同的大型语言模型在推理能力上的推广性,结果显示它们能够通过显式证明来产生假设性子证明 。