Apr, 2024

科学问答中通过上下文扰动表征LLM回避行为

TL;DR在这项研究中,我们研究了LLMs在提供不充分或不正确的上下文时放弃回答具有环境依赖性的科学问题的能力。通过在四个QA数据集上进行实验,我们展示了性能在模型之间、提供的上下文类型之间以及问题类型之间存在巨大的差异。我们的分析还突显了放弃回答表现对QA任务准确性的意外影响,表明需要改进QA数据集的设计和评估方法,以更有效地评估模型放弃回答的正确性和下游影响。