May, 2023

扰动证据下的推断:探测大型语言模型的学生模拟能力

TL;DR本文探讨了大型语言模型(Large Language Models)能否在扭曲事实的情况下进行逻辑推理,即称为扭曲证据下的演绎(Deduction under Perturbed Evidence,DUPE)。通过在 StrategyQA 数据集中进行实验,发现即使是最先进的 GPT 模型在扭曲事实的情况下也难以进行推理,准确率下降了 45%,研究结果对理解大型语言模型在实际应用中的表现具有实际意义。