Feb, 2024

当 LLM 遇到狡猾问题:一个针对大型语言模型的谬论理解基准测试

TL;DR我们在这篇论文中通过提出一个包含狡猾问题的 FaLlacy Understanding Benchmark (FLUB) 来挑战大型语言模型的推理和理解能力,该 Benchmark 包含了从真实互联网环境中收集的棘手、幽默和误导性问题,我们设计了三个难度递增的任务,用于评估 LLM 的谬误理解能力。基于 FLUB,我们研究了多个代表性和先进的 LLM 的性能,反映出 FLUB 具有挑战性且值得进行更多的未来研究。通过我们的广泛实验证明和详细分析,我们获得了有趣的发现和有价值的见解。我们希望我们的 Benchmark 能够鼓励社区改进 LLM 的理解谬误的能力。