Jun, 2024

不留下任何文件:扩展多文档问答中的长上下文语言模型基准测试

TL;DR提出了一个新的长上下文基准测试 Loong,通过扩展的多文档问题回答来实现与现实场景的对齐,来评估模型的长上下文建模能力。