Sep, 2024

貌似合理的干扰项在多跳推理中的作用:大型语言模型是否是细致的读者?

TL;DR本研究针对当前大型语言模型在多跳推理能力方面的不足,特别是它们在利用简化提示绕过推理要求的问题。研究发现,大型语言模型确实可能会通过更加微妙的方式规避这些推理要求,并提出了一种新的多跳推理基准,生成貌似合理但最终错误的推理链,显著影响模型的表现,F1分数最高下降45%。