Jul, 2024

FRoG:对大型语言模型中广义量词的模糊推理进行评估

TL;DR模糊推理在日常环境中对于使用不精确信息至关重要,本文引入了一个新的基准 FRoG,用于对模糊推理进行评估,实验结果表明大型语言模型在处理模糊推理方面仍面临重大挑战,并且现有的增强推理方法在涉及模糊逻辑的任务中并不一致地提高性能。此外,我们的结果显示了大型语言模型在 FRoG 上的逆比例缩放效应,有趣的是,我们还证明了强大的数学推理技能并不一定意味着在我们的基准测试中取得成功。