Mar, 2024

Counting-Stars: 评估长上下文大语言模型的简单、高效和合理策略

TL;DR近期的研究工作集中在开发具有强大的长上下文能力的大型语言模型(LLMs),由于缺乏适当的评估策略,对于领先的 LLMs(例如 ChatGPT 和 KimiChat)的长上下文处理能力和性能了解甚少。为了填补这一空白,我们提出了一种简单、高效、合理的策略来评估长上下文 LLMs,作为一项新的基准,命名为 Counting-Stars。Counting-Stars 的设计要求 LLMs 完全理解和捕捉长上下文中的长依赖,并能够收集贯穿整个上下文的多个证据之间的相互依赖来完成任务。基于 Counting-Stars,我们进行了实验证明,GPT-4 Turbo 和 Kimi Chat 在长度为 4K 到 128K 的长上下文中达到了显著的性能。我们进一步提出了两种有关 LLMs 处理长上下文行为的有趣分析。