Apr, 2024

RULER: 你的长上下文语言模型真实的上下文大小是多少?

TL;DR评估长上下文语言模型的新综合性基准 RULER,包括类别多跳追踪和聚合测试行为,显示出在上下文长度增加时所提供的任务和性能急剧下降