AAAIJan, 2024
基于多样化指令的可控生成大型语言模型的基准测试
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions
Yihan Chen, Benfeng Xu, Quan Wang, Yi Liu, Zhendong Mao
TL;DR我们提出了一个新的基准测试 CoDI-Eval,系统和全面评估 LLMs 对带有各种约束的指令的响应,揭示了它们在按照特定约束执行指令方面的局限性和开源与闭源 LLMs 之间存在显著差距。