Oct, 2024

通过知识任务评估语言模型的指令遵循能力

TL;DR本研究开发了一个用于评估语言模型指令遵循能力的基准,存在于验证任务表现和指令遵循能力之间的缺口。我们通过增加条件性指令来改进现有知识基准,从而揭示模型在面临不同指令时的表现变化。研究结果表明,即使是经过大型指令调整的模型,在零-shot设置下仍难以遵循简单指令。