Feb, 2024

CIF-Bench:一个用于评估大型语言模型通用性的中文指令遵循基准

TL;DRLLMs 在处理中文任务方面存在限制,该研究引入了中文指令跟踪基准(CIF-Bench),评估 LLMs 对中文语言的零射击泛化能力,并揭示出评估偏差和性能差距问题。