Jan, 2024
A & B == B & A:在大型语言模型中触发逻辑推理失败
A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models
TL;DR我们引入了LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了LLM未能学好的逻辑规则。我们评估了LogicAsker在GPT-3、ChatGPT、GPT-4、Bard、Vicuna和Guanaco等主要的大型语言模型上,并展示了LogicAsker的测试用例在不同LLM中发现逻辑推理错误的比率从25%到94%不等。此外,LogicAsker的测试用例可以进一步用于设计上下文学习的演示例子,有效提高LLM的逻辑推理能力,如GPT-4提高了10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高LLM的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。