Aug, 2024

CFBench:大型语言模型的综合约束遵循基准

TL;DR本文解决了当前评价大型语言模型(LLMs)在遵循自然语言指令方面的局限性,主要集中于碎片化的约束和狭窄场景。我们提出了CFBench,一个大规模的综合约束遵循基准,通过1000个样本覆盖200多个真实场景和50多个NLP任务,创新性地构建了约束类型的系统框架。评估结果显示,当前领先的LLMs在约束遵循方面还有显著提升空间,为模型的改进提供了方向。