Sep, 2024

迷失于逻辑:对大型语言模型在LSAT逻辑游戏中的推理能力的评估

TL;DR本研究评估了大型语言模型在法学院入学考试(LSAT)中,特别是在逻辑游戏部分的表现。研究构建了一个数据集并探索了不同的提示框架,发现通过改进的提示方法,GPT-4的准确率提高至70%,突出显示了大型语言模型在修正逻辑错误方面的潜力。研究还对模型在不同类型逻辑游戏中的表现进行了深入分析。