Feb, 2024

CIF-Bench:一个用于评估大型语言模型通用性的中文指令遵循基准

TL;DRLLMs在处理中文任务方面存在限制,该研究引入了中文指令跟踪基准(CIF-Bench),评估LLMs对中文语言的零射击泛化能力,并揭示出评估偏差和性能差距问题。