Jul, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理?

TL;DR评估大型语言模型在长文本情境下的能力,提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench,并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明,当前的大型语言模型在实际长文本应用中仍有很大的改进空间。