Jun, 2024

BABILong: 长篇背景下的 LLMs 极限测试和筛选

TL;DR在这项研究中,我们介绍了 BABILong 基准测试,用于评估大型语言模型在处理长上下文时的效率。评估结果表明,目前流行的语言模型仅有效地利用上下文的 10-20%,并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中,使用检索增强生成方法能够以最高 60%的准确率回答单个事实问题,而与上下文长度无关。对于上下文扩展方法,采用循环记忆变压器可以处理长度达 1100 万个标记。BABILong 基准测试可以扩展到任意长度,以支持评估具有更强能力的新模型,并为 1 百万个标记长度提供了分割。