Jan, 2024

基于多样化指令的可控生成大型语言模型的基准测试

TL;DR我们提出了一个新的基准测试CoDI-Eval,系统和全面评估LLMs对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源LLMs之间存在显著差距。