ACLApr, 2024

Ada-LEval:使用可调整长度基准评估长上下文语言模型

TL;DR我们引入了 Ada-LEval,这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试,包括两个具有挑战性的子集 TSort 和 BestAnswer,通过评估 4 个最先进的闭源 API 模型和 6 个开源模型,证明了目前 LLM 在超长上下文环境中的局限性。