Jun, 2024

LINGOLY:一份基于奥林匹克水平的语言推理难题在资源稀缺和濒危语言中的基准测试

TL;DR通过 LingOly 基准测试,我们评估了大型语言模型在上下文识别、语言模式的泛化能力以及执行复杂任务指令的能力,并发现在没有记忆的情况下,当前语言模型在真正的多步骤跨领域推理方面仍存在挑战。