AAAIJan, 2024

基于多样化指令的可控生成大型语言模型的基准测试

TL;DR我们提出了一个新的基准测试 CoDI-Eval,系统和全面评估 LLMs 对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源 LLMs 之间存在显著差距。