Jun, 2024

SIFo基准测试:探索大型语言模型的顺序指令跟随能力

TL;DR评估大型语言模型(LLMs)遵循多个指令的能力面临诸多挑战,为解决这些问题,我们引入了一个基准测试,通过顺序指令跟踪任务评估模型的遵循多个指令的能力。