Jan, 2025

LongProc:在长程序生成中对长上下文语言模型进行基准测试

TL;DR本研究解决了现有长上下文语言模型(LCLMs)基准测试中对长上下文回忆的局限性,提出了一个新的基准LongProc,要求模型整合分散信息并进行长篇生成。研究发现,尽管所有模型声称具有超过32K的上下文窗口大小,但在长生成任务中,模型普遍存在长期一致性不足的问题,显示出当前LCLMs的重大局限性与改进潜力。