Oct, 2024

Multi-IF:多轮和多语种指令遵循的LLMs基准评估

TL;DR本研究解决了当前基准主要集中于单轮单语指令的缺陷,无法全面反映多轮多语种交互的复杂性。我们提出了Multi-IF,这是一种新基准,通过结合LLM和人类注释,评估模型在多轮多语种指令执行中的能力。我们的研究发现,测试的最新LLM在多轮情况下的指令执行失败率显著提高,尤其在使用非拉丁文字的语言中表现尤为明显,显示出模型的多语种能力存在潜在局限。