Feb, 2024
CIF-Bench:一个用于评估大型语言模型通用性的中文指令遵循基准
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models
Yizhi LI, Ge Zhang, Xingwei Qu, Jiali Li, Zhaoqun Li...
TL;DRLLMs 在处理中文任务方面存在限制,该研究引入了中文指令跟踪基准(CIF-Bench),评估 LLMs 对中文语言的零射击泛化能力,并揭示出评估偏差和性能差距问题。