Apr, 2024

长上下文语言模型对长上下文学习困难

TL;DR在极限标签分类领域中,本研究介绍了一种专门的基准测试(LIConBench),重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上,发现在 20K 的令牌长度下,大部分大语言模型表现相对良好且受益于利用长上下文窗口,然而,在上下文窗口超过 20K 后,除了 GPT-4 之外,大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战,我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。